当前位置:新闻动态 > 公司动态
北科德源研究团队成功开发化合物hERG毒性计算机预测模型
发布时间:2018-01-09 14:24:31  点击量:811

hERG(human ether-a-go-go related gene)钾离子通道是Kv电压门控离子通道家族中的一员,存在于人类心室和心房肌细胞中,是心肌复极过程的重要因素。阻断hERG钾离子通道可导致QT期延长,即在信号传导过程中延长心室复极化的时间,进而导致长QT综合症、心律失常等心脏性疾病甚至猝死。因此,在药物开发过程中,如何避免候选药物的hERG毒性是一个必须考虑的问题。过去十多年里,很多重要的药物,都因为在上市前没能发现潜在的hERG通道的阻断作用引发严重的心脏毒性而被限制使用甚至撤出市场,包括特非那定(Tefenadine), 西沙必利(Cisapride),阿司咪唑(Astemisole)和格雷沙星(Grepafloxacin)等等。目前,检测化合物对hERG钾通道的作用已是临床前评价化合物心脏安全性的关键步骤,也是FDA要求的新药报批必备资料。

北科德源研究人员充分收集了现有的化合物hERG抑制性试验数据,采用机器学习方法,构建了化合物的hERG毒性预测模型。经过文本挖掘与人工比对,研究人员构建了一个高质量的包含4813种化合物的hERG抑制性数据集。其中3721种化合物用于模型训练,1092种化合物用作外部验证。由于划分化合物是否具有hERG毒性的阈值并不统一,本研究中采用认可度较高的1μM做为区分化合物是否具有hERG抑制性的阈值。化合物对hERG的半数抑制浓度IC50小于1μM的划分为抑制剂,大于1μM的划分为非抑制剂。两个数据集中不同类别化合物数量见表1。

表1. 训练集与验证集数据类别

通过计算各数据集中化合物的相对分子量(Molecule weight)和AlogP值,分析了各数据集的化学空间分布,如图1所示。从图中可以看出,测试集与外部验证集化合物的化学空间都在训练集分子范围之内。此外,Tanimoto相似性热点图(图2)也显示这些化合物具有很好的结构多样性。

图1. 数据集化合物的化学空间

图2. 数据集化合物结构相似性热点图

模型构建方法采用OCHEM工具箱,里面包含了kNN、ASNN、SVM、FSMLR、MLRA、PLS、WEKA-RF与WEKA-J48等八种不同的数理统计与机器学习方法。OCHEM工具箱同时提供了多种不同类型的分子描述符与分子指纹包,用于化合物结构表征,这里选取了CDK、Dragon v.6、Dragon6_part、OEstate & ALogPS、Fragments、GSFrag, Mera & Mersy、Chemaxon、Inductive、Adriana、Spectrophores、QNPR、Structural Alerts与SIRMS等14种分子描述符与分子指纹包。

不同的建模方法与化合物结构表征方法相结合,共有112种组合方式,因此,总共构建了112个化合物hERG抑制活性预测模型。经过5折交叉验证和外部验证,发现17个模型表现出较好的预测能力,其中8个模型是由ASNN算法构建的。为了综合利用这些单个模型的优势,分别使用全部17个单个模型和8个ASNN模型,构建了两个一致性综合模型(Consensus model I和Consensus model II)。两个综合模型均表现出了明显高于单个模型的预测能力。如表2所示,Consensus model I与Consensus model II对外部验证集的整体预测准确率分别达到87.3%与89.5%,优于现有的大部分hERG毒性预测模型。

表2 单个模型与综合模型外部验证预测能力

为了研究使用不同IC50阈值划分hERG抑制剂与非抑制对计算模型的影响,使用10μM做为划分hERG抑制剂与非抑制剂的IC50阈值,也构建了112个预测模型,模型在5折交叉验证和外部验证中的表现,都明显低于基于1μM构建的模型。这可能是由于10μM做为划分阈值,导致了抑制剂与非抑制剂数量之间的不平衡导致的。另外,也综合使用了1和10μM这两个不同的阈值来划分hERG抑制剂与非抑制剂。化合物对hERG抑制活性小于1μM被划分为抑制剂,大于10μM被划分为非抑制剂。使用这样的数据建模后,发现模型5-折交叉验证与外部验证结果与基于1μM的模型相比,预测准确率略有提高,不过考虑到这样的划分方式会造成数据集覆盖的化学空间变小,导致模型应用域减小,因此研究人员认为使用1μM做为划分hERG抑制剂与非抑制的阈值构建的模型更加优秀,适用于药物研发早期阶段,化合物hERG抑制性的计算机预测。

借助SVM算法与MACCS指纹构建的模型与使用OCHEM工具构建的一致性模型预测能力相近,对外部验证集预测准确率超过85%,已经整合到北科德源计算机辅助药物筛选平台的化合物ADMET性质预测模块(http://www.vslead.com/index.php?r=admet/index),供研究者在线使用。

该研究成果已经在线发表于SCI期刊Molecular Informatics (IF=1.955):

Xiao Li, Yuan Zhang, Huanhuan Li, Yong Zhao. Modeling of the hERG K+ channel blockage using online chemical database and modeling environment (OCHEM). Mol. Inf. 2017:DOI: 10.1002/minf.201700074.