正式介绍

蛋白质-蛋白质相互作用与许多生物效应有关,因此特异性干扰蛋白质-蛋白质识别的小分子在未来的药物开发中将变得越来越重要。

本文通过将含有蛋白-蛋白相互作用抑制剂的数据集与FDA药物数据库和ZINC数据库的子集进行比较,得到一个含有三个描述符的决策树,并通过相关程序进行验证,说明这不是一个偶然的相关结果,而是具有预测潜在PPI抑制剂的价值。该工作创新性地定义了质子泵抑制剂识别规则,有利于质子泵抑制剂的设计和评价以及虚拟化合物数据库的预筛选。

图。用决策树筛选质子泵抑制剂的过程

研究过程

1.建立质子泵抑制剂数据库

该化合物的分子量大于400克/摩尔,并且该化合物的结构高度多样。选择FDA批准的药物数据库作为参考来源。

2.过滤描述符

通过DRAGON 5计算,获得了1664个描述符。例如结构、分子轮廓、官能团计数等。

通过从描述符集中移除相关系数高于0.9的描述符、常数描述符和近似常数描述符。最后,它被过滤成637个描述符。

3.建立并修剪初始决策树

决策树由数据挖掘软件包WEKA生成。在初始决策树中使用了八个描述符,具有非常高的准确率,几乎完美地对训练集中的化合物进行了分类。而交叉验证操作中的真阳性率要低得多,说明初始决策树配置过度,预测能力不足。

因此,树的大小被修剪并限制为三个最相关的描述符:

SHP2是决策树顶部最相关的描述符,与形状、大小、延伸等分子性质有关;

NRCOOR代表分子中酯官能团的数目,这个描述符分支点用来排除酯官能团,酯官能团通常不被认为是类药物

Mor11m代表分子三维结构。

剪枝得到的决策树在训练集的分类上表现稍差,但交叉验证的真阳性率较高,预测能力高得多。

桌子。初始决策树与构造决策树的比较

4.决策树的验证

A.Y-加扰

将25种质子泵抑制剂的分类标签随机分配到数据集中,然后利用混合活性数据构建决策树。如果分类规则是基于机会相关性的,那么生成的随机数据集应该类似于基于真实数据的模型。

然而,替换测试的结果表明,在所有情况下获得的模型都没有有用的预测能力,并且这些模型不能可靠地识别数据集中的真阳性。

B.交叉验证

交叉验证程序从训练集中消除一个或多个数据集,从剩余实例中导出一个定量模型,并预测模型导出中未包含的一个或多个实例的PPI类别。

C.用锌子集测试

从ZINC7 2007的数据库中提取了1130个分子,以获得与25种PPI抑制剂具有相似分子量分布的化合物的集合。结果显示,有185种化合物被预测为潜在的PPI抑制剂,远远大于训练数据集,并且“假阳性”的数量非常高,这表明ZINC数据库包含了比FDA批准的药物数据库更多的与已知PPI抑制剂具有相似化学性质和分子形状的化合物。

当ZINC子集限于分子量为400-600g/mol的化合物时,“假阳性”的数量减少,表明所提出的模型对分子量较小的化合物具有稍好的效果。

总结

本文利用低维QSAR描述子建立决策树来筛选质子泵抑制剂,通过建模技术进一步修剪决策树,得到阳性率较高的质子泵抑制剂。单个描述符可以实现10倍富集的事实清楚地表明,基于经典和低维QSAR描述符,可以对潜在的质子泵抑制剂进行有效的虚拟筛选或预选。生成的子集可以通过更复杂的建模技术进一步消除一些假阴性和假阳性药物,验证实验结果表明得到的决策树不是偶然相关的。因此,本文建立的质子泵抑制剂的鉴定规则对预筛选潜在的质子泵抑制剂具有重要意义。

参考文献:

纽介堡尔,哈特曼;化学信息学和机器学习方法对蛋白质相互作用抑制剂的预测。J.Med.Chem.2007,50,4665-4668。

1.《scrambling 如何用机器学习的方法预测蛋白- 蛋白相互作用抑制剂?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《scrambling 如何用机器学习的方法预测蛋白- 蛋白相互作用抑制剂?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/shehui/1691358.html