目的 当前用于预测心脏毒性的定量构效关系(quantitative structure-activity relationship, QSAR)模型仅限于hERG通道抑制作用这一机制,应用范围较狭窄。本研究旨在构建包含各类心脏不良反应的QSAR模型,以应用于中药化学成分潜在心脏毒性的预测。方法 从Toxicity Reference Database(ToxRefDB)和Side Effect Resource(SIDER)数据库中共收集1 109个具有心脏毒性的化合物和789个不具有心脏毒性的化合物作为构建QSAR模型的训练集,应用ADMET Predictor软件计算、筛选分子描述符,通过两种算法(支持向量机和人工神经网络)依次纳入不同数量分子描述符分别构建QSAR模型,通过10折交叉验证方法进行内部验证选择最优模型,然后通过查阅文献及数据库共收集19种具有心脏毒性和10种不具有心脏毒性的中药化学成分作为外部验证集,评价所建QSAR模型对于中药化学成分心脏毒性预测的适用性。结果 经筛选后共有220种分子描述符参与建模,用支持向量机算法所建的最优模型为包含87种分子描述符的模型,其内部验证结果显示模型灵敏度为71%,特异度为70%,约登指数(Youden’s index)和马修斯相关系数(Matthews correlation coefficient)均为0.41。用人工神经网络算法所建的最优模型为包含13个神经元及87种分子描述符的模型,其内部验证结果显示模型灵敏度为78%,特异度为77%,约登指数和马修斯相关系数均为0.54。通过29种中药化学成分验证显示,支持向量机模型外部验证结果灵敏度为95%,特异度为40%,整体预测的准确率达到76%;人工神经网络模型外部验证结果灵敏度为95%,特异度为60%,整体预测的准确率达到83%。结论 应用人工神经网络算法构建的模型预测能力要优于支持向量机算法构建的模型,通过已知毒性的中药化学成分验证表明,此QSAR模型有良好的灵敏度和预测准确率,可以用于中药化学成分心脏毒性的预测。
Objective: Some quantitative structure-activity relationship (QSAR) models have been developed to predict cardiac toxicity of drugs, which have limited predictive power due to based on hERG channel inhibition. The objective of this study was try to develop a QSAR model based on all kinds of cardiac adverse effects, and to predict the potential cardiotoxicity of chemical components in traditional Chinese medicines (TCM).Methods: In this study, the compounds data of all kinds of cardiac adverse reactions were selected as the training set. The QSAR models were constructed based on 1 109 compounds with cardiotoxicity and 789 compounds without cardiotoxicity, which were available from the Toxicity Reference Database (ToxRefDB) and Side Effect Resource (SIDER) database. The ADMET Predictor software was applied to calculate and to screen the molecular descriptors, and to construct the QSAR models using support vector machine (SVM) and artificial neural networks (ANN) algorithm, respectively. The models were optimized using compound-based 10-fold cross validation. Then, the predictive performance for the potential cardiotoxicity of chemical components in TCM were assessed using external validation by 19 components in TCM with cardiotoxicity and 10 components in TCM without cardiotoxicity.Results: A total of 220 molecular descriptors were selected for modeling, and the best model using SVM algorithm contained 87 molecular descriptors. The internal validation results showed that the predictive sensitivity, specificity, the Youden’s index (YI) and the Matthews correlation coefficient (MCC) were 71%, 70%, 0.41, and 0.41, respectively. The best model constructed using ANN algorithm contained 13 neurons and 87 molecular descriptors. The internal validation results showed that the predictive sensitivity, specificity, the YI and the MCC were 78%, 77%, 0.54, and 0.54, respectively. Both models were validated using external validation by the same set of 29 chemical components in TCM with or without cardiotoxicity, which were not included in the training set. The predictive performances of SVM or ANN model were as follows, respectively: sensitivity 95%, 95%; specificity 40%, 60%; and accuracy 76%, 83%.Conclusion: The predictive performance of the QSAR model using ANN algorithm was better than that of the model using SVM algorithm. The external validation study of 29 chemical components in TCM illustrated that the QSAR model was applicable for screening and predicting the potential cardiotoxicity of chemical components in TCM.
中药用于治疗疾病已经有上千年的历史, 对维持人类健康起到了不可或缺的作用。近几十年来, 越来越多的西方人也选择将中药用作联合治疗的补充用药, 或接受中医治疗[1, 2], 中药的应用日益广泛。然而, 由于重金属污染、药物间相互作用及中药所含毒性成分等问题引发的药物不良反应事件时有发生[3, 4, 5], 这些药物不良反应主要为肝、肾和心脏毒性, 后者有时甚至会导致用药者死亡的严重后果, 因此, 针对中药心脏毒性的早期预测、评价及监测受到世界各国的高度重视。
药物的心脏毒性是指药物在相对小的剂量和相对短的时间内, 对心脏生理功能产生影响或损害心肌的药效反应[6], 是导致药物不良反应事件发生的主要原因之一。心脏是人体中重要的器官, 其损伤会为机体健康带来严重的影响, 甚至可导致猝死。心脏结构复杂, 毒性成分可通过与各种受体、离子通道的相互作用, 参与氧化应激反应, 造成细胞器损伤及影响细胞凋亡等多种途径对其造成损伤。近年来, 一些已投入临床应用的中药制剂因其潜在的心脏毒性而被迫从市场撤回或推迟批准进入市场[7]。
动物实验是药物毒性评价的传统方法, 可以较好地反映药物对动物整体的毒性作用。由于每种中药包含多种化学成分, 且对化学成分单体的分离、提取和纯化较难, 增加了进行体内毒性评价试验的障碍[8]。此外, 大量的动物实验违反了国际上提倡的“ 3R” 原则, 即减少(reduction)、替代(replacement)、优化(refinement)原则, 因而传统的动物实验方法用于中药化学成分心脏毒性的筛选具有一定的局限性。应用合适的体外实验或计算机模拟方法对中药进行心脏毒性预测及有毒成分的早期筛选已经成为重要的发展方向。定量构效关系(quantitative structure-activity relationship, QSAR)是一种将化合物的生物学效应与其结构特征相联系, 并通过构建模型来表征的计算机模拟方法[9]。QSAR模型可通过对一组化合物的结构及毒性效应数据建模, 以预测其他结构已知的化合物对机体的潜在毒性作用, 是一种高效、简便的计算机模拟方法。应用QSAR模型可以预测和筛选化学物的毒性, 为后续的毒性实验提供优先导向, 并为其风险评估提供有价值的初步信息[10]。
目前预测药物心脏毒性的QSAR模型多为针对hERG(human ether-a-go-go-related gene)钾离子通道抑制作用这一机制的, 适用范围较单一, 且模型均由合成药物构建及验证, 是否适用于中药化学成分的心脏毒性预测尚不明确。本研究收集了各类心脏不良反应的化学成分数据构建QSAR模型, 并应用已有文献报道的具有或不具有心脏毒性的中药化学成分作为验证集, 评价其用于中药化学成分心脏毒性预测的能力。
美国环境保护署(U.S. Environmental Protection Agency, EPA)收集、整理了上千种化合物的毒性实验研究数据, 构建了Toxicity Reference Database(ToxRefDB)[11], 该数据库有严格的纳入、排除标准, 包含每种化合物器官毒性的具体病理改变, 数据详细、质量可靠。Side Effect Resource(SIDER)数据库是由欧洲分子生物学实验室(European Molecular Biology Laboratory, EMBL)建立的药物不良反应数据库, 其中包含了大量合成药物相关的药物不良反应信息[12]。本研究用于构建QSAR模型的化合物数据均来自于ToxRefDB和SIDER数据库。
本研究收集ToxRefDB中大鼠经口的毒性实验数据, 筛选出其中具有心脏毒性的化合物170种作为阳性集, 其余510种化合物认为不具有心脏毒性, 作为阴性集。SIDER数据库中, 每类不良反应都包含确定可引发此不良反应的药物和疑似可引发此不良反应的药物, 本研究共收集其中951种确定可引发各类心脏相关不良反应的药物作为阳性集, 并在剩余药物中剔除疑似可引发心脏相关不良反应的药物后得到485种药物, 认为其不具有心脏毒性, 作为阴性集。合并两数据库并剔除其中重复的化合物后, 共得到1 109个具有心脏毒性的化合物和789个不具有心脏毒性的化合物, 作为构建QSAR模型的训练集, 然后从PubChem下载所有化合物的3D分子结构文件。
应用美国Simulation Plus公司的ADMET Predictor软件计算并筛选分子描述符。ADMET Predictor软件可根据化合物的分子结构文件计算341种2D分子描述符及额外的36种3D分子描述符, 包括组成描述符、拓扑及电拓扑参数描述符、电荷相关描述符、氢键结合能力描述符、分子电离描述符、官能团描述符等。计算每个分子的描述符后, ADMET Predictor软件会通过两个步骤对所有描述符进行筛选:(1)计算所有分子描述符的变异系数(coefficient of variation), 变异系数小于1%的分子描述符不具有代表性, 被剔除; (2)计算不同分子描述符间的相关性, 所有高度相关的一对分子描述符将会被随机剔除一个。在构建模型时, ADMET Predictor软件还根据分子描述符的“ 敏感性” 进行排序, 优先纳入对模型终点影响大的分子描述符。
应用ADMET Predictor软件的自建模模块进行模型的构建及评价。ADMET Predictor软件中包含支持向量机(support vector machine, SVM)和人工神经网络(artificial neural networks, ANN)用于分类变量建模的算法, 本研究分别应用这两种算法构建模型。SVM是一种基于结构风险最小化原理用于进行模式识别的机器学习方法[13], 通过核函数将原始数据投射到高维特征空间中, 再根据间隔最大化策略构建一个超平面对其进行分类, 是一种二分类模型。ANN通过模拟生物神经元对刺激的处理方法, 对一组数据进行函数逼近和模式回归, 其通过给定的训练集, 逐渐对网络参数进行调整, 降低预测错误, 以建立一个稳健、精确的预测网络, 但每个预测结果的生成过程并不能被直接解释[14]。
内部验证可以考察模型的稳健性, k折交叉验证(k-fold cross-validation)是常用于进行内部验证的方法, 其原理是将训练集随机分成k等份, 每次用(k-1)份建模, 剩下的1份用作测试集进行验证, 如此循环直到每份都被当作测试集使用过为止[15]。本研究采用10折交叉验证方法对模型进行内部验证, 通过计算灵敏度(sensitivity, SE)、特异度(specificity, SP)、约登指数(Youden’ s index, YI)和马修斯相关系数(Matthews correlation coefficient, MCC)这4个指标评价模型的性能, 选出最优模型。
模型的外部验证要通过独立的测试集来完成, 测试集中任何一个化合物都不能包含于训练集中。通过查阅文献[16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34]及数据库[35, 36], 共收集了19种具有心脏毒性的中药化学成分及10种具有心脏保护作用的中药化学成分作为外部验证的测试集, 测试集中与训练集重复的化合物已被剔除。所有成分的3D分子结构文件均从PubChem下载, 中药化学成分信息详见表1。计算各模型的SE、SP及准确率(accuracy, ACC)以评价模型的预测能力。
模型验证中涉及到的各指标计算公式如下:
SE=
MCC=
ACC=
以1 109个具有心脏毒性的化合物和789个不具有心脏毒性的化合物作为训练集, 构建心脏毒性的QSAR预测模型。ADMET Predictor软件针对上述化合物的3D分子结构文件计算了全部341种2D分子描述符及36种3D分子描述符, 经过计算分析剔除了其中不具代表性和存在高度相关性的分子描述符, 共有220种分子描述符参与建模。将全部220种分子描述符按照其对模型终点影响的敏感度高低排序, 应用SVM算法建模时依次纳入不同数量的分子描述符构建模型, 应用ANN算法建模时依次设定不同数量的神经元并纳入不同数量的分子描述符构建模型。
应用SVM或ANN算法构建的模型均通过10折交叉验证方法进行内部验证, 分别计算各模型的SE、SP、YI及MCC, 并根据计算结果选出了两种算法构建的最优模型, 其中, SVM算法的最优模型纳入了87种分子描述符, 其SE达到71%, SP为70%, YI和MCC均为0.41; ANN算法的最优模型包含了13个神经元及87种分子描述符, SE达到78%, SP为77%, YI和MCC均为0.54, 其各项验证结果均比SVM算法所建模型略优。两种算法的最优模型内部验证结果如表2所示。
共收集19种具有心脏毒性、10种不具有心脏毒性的中药化学成分作为外部验证集, 用于评价所建模型的预测能力。通过对外部验证集中29种中药化学成分心脏毒性的预测, 分别计算两模型的SE、SP及ACC, 结果汇总于表3中。
外部验证结果显示, 两种算法模型对19种具有心脏毒性的中药化学成分均预测正确的18种, 仅对隐品碱预测错误, SE高达95%; 对于10种不具有心脏毒性的中药化学成分, SVM算法构建的模型仅对吴茱萸次碱、氧化苦参碱、人参皂苷Rg1和葛根素4种成分预测正确, SP为40%; ANN算法构建的模型对吴茱萸次碱、人参皂苷Rg1、葛根素、槲皮素、牡荆素和红花黄色素6种成分预测正确, SP为60%, 较SVM模型高; 对于全部29种化合物, ANN模型的ACC达到了83%, 高于SVM模型的76%。
近年来中药不良反应的相关报道逐渐增多, 预测、评价中药毒性的相关研究备受关注。到目前为止, 不少研究人员和国际组织已建立了与药物心脏毒性相关的数据库和QSAR模型, 但大多为针对hERG通道抑制作用这一机制。美国食品药品监督管理局(Food and Drug Administration)收集整理了其相关数据库及已发表医学文献中的数据, 构建了3个QSAR模型, 灵敏度分别为74.7%、47.2%和21.0%, 特异度分别为70.7%、91.7%和 98.0%[37]。Kireeva等[38]应用SVM算法针对不同类型分子描述符分别构建了3种QSAR模型, 其外部验证的准确率为73%~81%。雷蕾等[39]收集FDA药品数据库中关于hERG通道的数据, 通过4种算法构建QSAR模型, 最优算法模型准确率为86.3%。随着可用于建模数据的增多及建模算法的发展, 对药物心脏毒性的QSAR模型的预测性能也逐渐提升, 然而这些模型的训练集和外部验证集均为合成药物, 其验证结果代表对合成药物心脏毒性的预测准确度, 尚不能说明这些模型是否适用于预测中药化学成分的心脏毒性。有研究指出, 合成药物和中药化学成分在空间结构上有明显差异, 现有的各类计算毒理学方法在用于中药化学成分毒性预测时适用性有限, 预测正确率可能会更低[40]。
本研究收集了各类心脏不良反应的毒性成分数据, 应用ANN及SVM两种算法, 构建了用于预测化合物心脏毒性的QSAR预测模型。以29种毒性情况已知的中药化学成分作为外部验证集, 评价模型对于中药化学成分毒性预测的适用性, 验证结果显示, ANN算法所建模型的整体预测能力优于SVM算法所建模型, 模型灵敏度高达95%, 特异度为60%, 整体预测准确率达到83%, 可以用于中药化学成分心脏毒性的筛选预测。
相较于其他已有的心脏毒性QSAR模型, 本研究选用的训练集数据不限于hERG通道抑制作用这一机制, 而是包含了心律失常、心肌损伤及心力衰竭等各类心脏不良反应, 故本研究构建的QSAR模型有适用范围更加广泛、对于潜在心脏毒性物质的筛检更加灵敏的优点。在筛选中药潜在毒性成分时, 为了尽可能避免毒性成分的漏筛, 减少假阴性情况的发生, 模型的灵敏度要更高。本研究构建的模型灵敏度达到95%, 优于其它现有QSAR模型, 能有效减少由于毒性成分漏筛导致的对于中药潜在心脏毒性的低估。然而, 由于阳性集中的化合物包含多类心脏不良反应机制, 此QSAR模型的特异度(60%)较其他模型相对较低, 应用时预测结果可能会出现假阳性的情况, 有可能增加后续心脏毒性评价实验的工作量。由于各类心脏不良反应并非单一的化合物-靶点作用结果, 而是由多种因素综合作用的结果, 应用此QSAR模型预测中药化学成分心脏毒性可能不利于对其作用机制的解释及研究。
构建预测中药化学成分潜在毒性的QSAR模型, 理想情况是应用中药化学成分的毒性数据作为训练集, 这样构建的模型适用性更高, 然而中药具有多成分的特点, 针对中药单一成分的毒性研究相对较匮乏, 毒性数据资料不足以构建QSAR预测模型。目前用于预测中药化学成分毒性的QSAR模型均为由合成药物数据所构建, 在应用时应注意进一步考察其适用性。随着各类毒性评价实验方法的发展, 对中药单一成分的毒性数据将会越来越多, 构建QSAR模型预测中药化学成分毒性的研究发展前景广阔。
The authors have declared that no competing interests exist.
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|