当前位置:新闻动态 > 公司动态
虚拟筛选新方法MD-QSAR篇
发布时间:2017-11-08 09:46:16  点击量:1363

导言

QSAR模型(定量结构活性关系)是依赖于2D3D分子描述符,用以描述化合物结构药效特征与化合物活性关系的一种研究方法。本文通过总结ERK2受体的研究案例,发现即使最可靠的QSAR模型也不能准确的按照ERK2抑制剂的活性进行打分排名。此外,通过总结之前的研究成果,以及分析当前87个已知活性的配体与ERK2受体对接情况(Schrodinger软件的Glide模块完成对接)发现即使这种较为可靠的分子对接技术也不能将活性较强的化合物从无活性或者微弱活性的化合物中区分出来。因此研究一种准确率较高的、能够准确预测药物活性的药物发现技术是十分必要的。针对以上药物研发过程中的缺点,提出了一种准确率较高的描述化合物结构与活性关系的技术,即MD-QSAR技术,简单来说,就是将蛋白与配体复合物通过分子动力学模拟,以获取更多的配体与靶标产生相互作用的构象信息,这些构象信息用于定量定性的描述化合物的描述符,通过对获得的描述符信息进行统计分析,得到更为可靠的QSAR模型,再用于虚拟筛选。MD-QSAR模型较之前的2D-QSAR或者3D-QSAR模型,具有显著优点:可以将活性较强的化合物从中等活性、活性较弱以及无活性的化合物中挑选出来,大大提高了预测的准确性,先用一张图观摩下具体技术与研究成果吧。

简单看完以上技术,跟着小编一起看看详细操作流程吧。

方法

1 ERK2数据集收集

CHEMBL12数据库中收集以ERK2为靶标的具有Ki活性值的抑制剂,其中排除立体异构体和Ki值近似的化合物,共挑选出48Ki4.6-8.7的化合物,加上CSAR提供的39个化合物,Ki4.8-9.0,并且认定当pKi>7.5时,评定为活性抑制剂,pKi<7.5时,考虑无活性抑制剂。

2 蛋白准备、Glide对接和分子动力学模拟

ERK2结晶结构(PDB3I60)为受体结构,用SchrodingerSuite v2015-4ProteinPreparation wizard模块进行对接前的蛋白结构准备,然后用Glide模块进行对接,GlideSPGlideXP两种打分函数进行评价抑制剂和靶点的结合亲密性,根据打分函数挑选87个配体的最优构象进行20ns的分子动力学模拟,每隔1ps记录一次构象,每个配体共有20,000个构象。

3 计算分子描述符

KNIME软件计算描述符类型,其中KNIME软件包括:ID-MACCSfingerprints2D-RDKitdescriptors3D-DMoments descriptors3D-WHIM descriptors。对于3D-WHIMdescriptors,应用了所有的权重系数:单位重量(unitweights),原子质量(atomicmasses)、范德华体积(VdW volumes)、马利克原子电负性(Mullikenatomic electronegativities)和原子极化率(atomicpolarizabilities)。3D-DMoments 3D-WHIMdescriptors用于计算每一个配体的构象,每一个配体的3D描述符分布的均值和标准差计算公式如下:

  • xi是第i3D描述符的均值, si是第i3D描述符的标准差,xij表示在MD模拟过程中第j个构象的第i个描述符的值,n=400, 计算所得的所有描述符统计表如表1所示,对于任意一个描述符,当其方差值低于四分之一分位数描述符方差时,考虑为低方差描述符,则去掉这些描述符。

4 利用不同的方法验证描述符集(具体方法介绍略)

应用到的分析方法包括假设检验、相关结构分析、层次聚类分析和主成分分析,所有的分析方法全部应用R3.3.1完成,所以学好R语言很重要!

再努力看下结果分析,这个有意思。

结果


1 ERK2配体Glide对接结果分析

通过对87个配体的对接分析发现一个很有意思的现象,Glide的对接能够准确的预测MODEL数据集48个化合物的pKi活性值(SPρ=0.74XPρ=0.65ρGlide对接打分值和PKi活性值的相关关系系数),而对于CSAR数据集预测的准确度较差(SPρ=0.43XPρ=0.51),这个现象和之前的研究结论是一致的:(i)分子对接不能够准确预测出ERK2的抑制剂活性(ii)不能区分出活性最好的化合物(iii)不能区分出无活性的化合物。例如:在CSAR6化合物通过对接得到的SPXP打分值分别为-12.39-12.73kcal/mol,对接预测应该是一个活性很好的化合物,但是实验PKi值仅为6.1(当1微摩尔为阈值时,无活性)。

下图展示了一个活性比较好(pKi=8.4)化合物的集合模式分析图,显示化合物与周围的氨基酸形成了很好的相互作用,绿色显示的受体位点,玫粉色显示供体位点。


2 MD模拟取样后的描述符分析

通过大量的检验验证,得到如下结果:

1)表1显示不同描述方法总共所得的描述符的数量以及应用不同数据过滤方法保留的描述符数量,表2显示通过聚类分层分析得到的类以及聚类的评价,MD描述符方法ARI值和RI值(用于评价聚类的好坏,值越大越好)说明活性相似的配体在MD描述符中聚类效果最好,模型较为准确,预测能力高。

2)在3DMD描述符中(图3所示),部分活性化合物和非活性化合物的描述有明显的不同,然而在MACCS2D描述符中,活性化合物和非活性化合物差异不是很明显。

3)在3D水平,不同方法产生的描述符中会包含的一些相同的描述符信息,而 MD描述符信息除此之外,还包涵了一些新的和独特的描述符信息,而这些信息不能被其他的2DMACCS3D描述符集所获取,因此可以更好的预测ERK2受体与配体的结合亲密性,区别活性化合物和非活行化合物。


总结

本文研究亮点:基于一系列蛋白-配体复合物的MD模拟轨迹得到配体动力学特点的关键信息,产生基于构象和时间依赖性的3D描述符,统计分析得到高度准确的MD-QSAR模型,准确预测受体与配体的结合亲密性,区别活性和非活性化合物。总之,MD-QSAR模型用于虚拟筛选比基于对接的虚拟筛选技术以及2D-QSAR3D-QSAR技术在活性化合物预测方面具有更高的预测准确性,适合与机器学习相互衔接,减少人力分析成本,提高筛选效率。


参考文献:Ash J, Fourches D. Characterizing the ChemicalSpace of ERK2 Kinase Inhibitors Using Descriptors Computed from MolecularDynamics Trajectories.2017 Jun 26;57(6):1286-1299. doi:10.1021/acs.jcim.7b00048.