选自arXiv
参与:薛璐、李泽南
分子机器中的学习发展很快,但是没有标准的基准来比较不同方法的性能,所以算法进度有限。斯坦福大学的研究人员提出了一个适用于分子机器研究的大型基准MoleculeNet,并在arXiv上发表了一篇论文。机器心整理了论文。
论文地址:https://arxiv.org/abs/1703.00564
在过去的几年里,分子机器中的学习发展迅速,日趋成熟。方法的改进和大数据集的出现使得机器学习算法的分子特征预测精度更高。然而,由于缺乏标准的基准来比较不同方法的性能,算法的进度是有限的。大多数新算法基于不同的数据集,这使得难以评估方法的质量。这项研究引入了MoleculeNet,这是分子机器学习的一个大型基准。MoleculeNet提供多个公共数据集,建立评估指标,并提供多种分子特征化和学习算法的高质量开源实现(作为DeepChem开源库的一部分发布)。MoleculeNet基准证明了可学习表示是分子机器学习的有力工具,可以广泛提供最优性能。但是,还是有一些需要注意的地方。可学习表征在缺乏数据和分类严重失衡的情况下,仍然需要处理复杂的任务。对于量子力学和生物物理数据集,物理表征的使用比具体的学习算法更重要。
方式
MoleculeNet基于开源包DeepChem。图1显示了带注释的DeepChem基准脚本。注意数据分割、表征和可用模型的不同选择。DeepChem还可以直接提供molnet子模块来支持基准测试。以下命令行可以在指定的数据集、模型和功能上运行基准测试,还支持能够处理DeepChem数据集的用户定义模型。
本文将进一步介绍基准系统、可用数据集以及实现的分割、测量、表征和学习方法。
图1:使用DeepChem的基准评估代码示例,它提供了各种数据分割、表征和学习方法。
表1:数据集细节:化合物和任务的数量,推荐的数据分段和测量。
图2:不同数据集中的任务反映了不同水平的分子属性。
图3:3中的数据分区:MoleculeNet。
图4:不同非平衡条件下logistic回归和图形卷积模型预测的ROC曲线和准确率-召回率曲线。a、b:在ClinTox子集中测试“FDA批准”任务;c,d:在SIDER子集中测试“肝胆疾病”任务;e,f:验证子集Tox21的“NR-ER”任务;g,h:测试子集HIV的“HIV主动”任务。黑色虚线表示随机分类器的性能。
表2:任务细节和示例曲线的曲线下面积值。第二列是阳性样本/阴性样本的数量。
图5:5中的表征图:MoleculeNet。
图6:6:MoleculeNet中实现的基于图的模型的核心结构。目的是为中间的深绿色原子建立特征:图卷积模型:通过相邻原子的连接更新特征;b有向无环图模型:所有连接直接围绕中心原子,特征通过直接连接从最远的原子转移到中心原子;c编织模型:每一对原子(包括不直接相连的原子对)都可以配对,中心原子的特征通过所有其他原子和相关对更新,特征通过对中两个原子的连接更新;d消息传递神经网络:相邻原子的特征输入依赖于连接类型的神经网络,然后输出(消息)。中心原子的特征通过输出来更新;e深度张量神经网络:没有明确的连接信息,特征由其他原子对应的物理距离更新;F ANI-1:特征由成对原子之间的距离信息(径向对称函数)和三个原子之间的角度信息(角度对称函数)构成。
表3:(测试集)性能总结:传统方法与基于图的方法。基于图的模型在11/17数据集上优于传统方法。
这篇文章是为机器的核心编写的。请联系本微信官方账号进行授权。
1.《molecule 学界 | 斯坦福论文提出MoleculeNet:分子机器学习新基准》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《molecule 学界 | 斯坦福论文提出MoleculeNet:分子机器学习新基准》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/811125.html