暨南大学莫测辉教授团队向垒教授等利用机器学习人工智能技术,建立了预测多环芳烃(PAHs)及其衍生物大鼠急性经口毒性(LD50)和参考剂量(RfD)的精准模型,阐明了影响PAHs衍生物毒性的关键因子及其作用区间,并开发了基于最优机器学习模型的应用软件,实现了对6893种多环芳烃及其衍生物经口毒性的准确预测。该研究构建了从数据工程、模型构建、模型解释到软件开发和模型应用的完整机器学习QSAR模型研发技术链条,为利用机器学习模型全面评估新污染物毒性效应和风险水平提供了重要参考。论文以“Accurate Prediction of Rat Acute Oral Toxicity and Reference Dosefor Thousands of Polycyclic Aromatic Hydrocarbon Derivatives Based onChemometric QSAR and Machine Learning”为题发表于Environmental Science & Technology(2024,https://doi.org/10.1021/acs.est.4c03966),硕士研究生吴双为论文第一作者,向垒教授、莫测辉教授为论文通讯作者。
多环芳烃(PAHs)是环境中广泛存在且具有高毒性甚至致癌性和致畸性的高风险化合物,严重威胁生态环境安全和人体健康。值得注意的是,PAHs母体在环境或生物体内经过复杂的代谢转化过程后,能够生成结构更为复杂的PAHs衍生物。据报道,环境中有超过10,000种PAHs衍生物,虽然其环境浓度通常比其母体PAHs更低,但却能产生更大毒性效应。因此,亟待对PAHs衍生物开展全面毒性评估。毒理学试验是评价化学品毒性的重要手段,对啮齿类动物(如大鼠、小鼠)的急性经口毒性试验结果常作为化学品对人体潜在毒性分级的依据。然而,通过实验确定数千甚至上万种PAHs衍生物的毒性几乎是无法完成的。而且,为了实现动物实验的3R(替代,减少和改进)原则,利用机器学习技术构建PAHs衍生物毒性效应的定量构效关系(QSAR)模型成为一种有效的替代方法。该方法不但可以大大提高了毒性评估效率,还大幅降低了评估成本,为全面理解并评估种类繁多、结构复杂的新污染物的毒性效应开辟了新的技术途径。
本研究以PAHs及其衍生物为研究对象,基于 788 个大鼠经口毒性数据点,以目标化合物的2D分子描述符(共48个)作为输入变量,以pLD50为目标值,利用主流机器学习方法(随机森林RFR、梯度提升树GBRT、极端梯度提升XGB、轻量级梯度提升机LGBM)开发了预测PAHs衍生物经口毒性和参考剂量的QSAR回归模型,并开展贝叶斯优化和10折交叉验证,发现GBRT模型在阐释PAHs衍生物毒性数据点的变化及规律方面表现最为出色,而堆叠模型(XGB + GBRT + RFR)进一步提高了预测结果的稳定性和可靠性。通过SHAP特征重要性和个体条件期望(ICE)分析发现,极性氢(Hmin)、大尺寸原子(ETA_EtaP)、分支程度(chiPath.11)、极化率(BCUTp-1l)是影响PAHs及其衍生物急性毒性的关键因素(图1)。总体上,极性氢越少、分支越多、大尺寸原子越多、极化率越低,则PAHs 衍生物毒性越大。进一步的三维交互分析和二维投影分析阐明了PAHs衍生物的毒性分布区间,即在Hmin < -0.05、ETA_EtaP > 0.68、chiPath.11 > 3.20、BCUTp-1l < 3.60的条件下,化合物呈现高毒性,反之则呈现低毒性(图2)。
基于最优机器学习模型,并利用欧式距离算法和分子指纹相似性算法,本研究严格确定了建立机器学习模型的应用域(AD),进而利用Pyside6实现了机器学习模型的软件化,拓展了构建机器学习QSAR模型的应用潜力,实现了对6893种外部PAHs衍生物经口毒性(pLD50值)及 其参考剂量RfD值的准确预测,发现有472种化合物具有中/高毒性,其中有10种化合物具有明确的环境检测或使用记录,它们的环境行为和风险亟待进一步研究和评估(图3和图4)。本研究工作为全面理解和评估PAHs的毒性效应提供了理论和技术支持,并为利用机器学习模型开展新污染物毒性评估和风险评价提供了重要参考。
该研究获得国家自然科学基金(42030713、42177187)、广东省基础与应用基础研究基金(2023A1515010806)和广州市科技计划(2024A04J9922)等课题的资助。
责任编辑:宋潇
校对丨审核:张阳 王农
本篇文章由《农业环境科学学报》青年编委向垒教授供稿。欢迎各位专家学者向农业环境科学投稿宣传团队科研成果!请您联系邮箱:caep_sx@163.com。投稿时请确保您拥有论文的翻译、编辑、转载等权利。