当前位置:首页 > 娱乐

molecule 学界 | 斯坦福论文提出MoleculeNet:分子机器学习新基准

选自arXiv

参与:薛璐、李泽南

分子机器中的学习发展很快,但是没有标准的基准来比较不同方法的性能,所以算法进度有限。斯坦福大学的研究人员提出了一个适用于分子机器研究的大型基准MoleculeNet,并在arXiv上发表了一篇论文。机器心整理了论文。

论文地址:https://arxiv.org/abs/1703.00564

在过去的几年里,分子机器中的学习发展迅速,日趋成熟。方法的改进和大数据集的出现使得机器学习算法的分子特征预测精度更高。然而,由于缺乏标准的基准来比较不同方法的性能,算法的进度是有限的。大多数新算法基于不同的数据集,这使得难以评估方法的质量。这项研究引入了MoleculeNet,这是分子机器学习的一个大型基准。MoleculeNet提供多个公共数据集,建立评估指标,并提供多种分子特征化和学习算法的高质量开源实现(作为DeepChem开源库的一部分发布)。MoleculeNet基准证明了可学习表示是分子机器学习的有力工具,可以广泛提供最优性能。但是,还是有一些需要注意的地方。可学习表征在缺乏数据和分类严重失衡的情况下,仍然需要处理复杂的任务。对于量子力学和生物物理数据集,物理表征的使用比具体的学习算法更重要。

方式

MoleculeNet基于开源包DeepChem。图1显示了带注释的DeepChem基准脚本。注意数据分割、表征和可用模型的不同选择。DeepChem还可以直接提供molnet子模块来支持基准测试。以下命令行可以在指定的数据集、模型和功能上运行基准测试,还支持能够处理DeepChem数据集的用户定义模型。

本文将进一步介绍基准系统、可用数据集以及实现的分割、测量、表征和学习方法。

图1:使用DeepChem的基准评估代码示例,它提供了各种数据分割、表征和学习方法。

表1:数据集细节:化合物和任务的数量,推荐的数据分段和测量。

图2:不同数据集中的任务反映了不同水平的分子属性。

图3:3中的数据分区:MoleculeNet。

图4:不同非平衡条件下logistic回归和图形卷积模型预测的ROC曲线和准确率-召回率曲线。a、b:在ClinTox子集中测试“FDA批准”任务;c,d:在SIDER子集中测试“肝胆疾病”任务;e,f:验证子集Tox21的“NR-ER”任务;g,h:测试子集HIV的“HIV主动”任务。黑色虚线表示随机分类器的性能。

表2:任务细节和示例曲线的曲线下面积值。第二列是阳性样本/阴性样本的数量。

图5:5中的表征图:MoleculeNet。

图6:6:MoleculeNet中实现的基于图的模型的核心结构。目的是为中间的深绿色原子建立特征:图卷积模型:通过相邻原子的连接更新特征;b有向无环图模型:所有连接直接围绕中心原子,特征通过直接连接从最远的原子转移到中心原子;c编织模型:每一对原子(包括不直接相连的原子对)都可以配对,中心原子的特征通过所有其他原子和相关对更新,特征通过对中两个原子的连接更新;d消息传递神经网络:相邻原子的特征输入依赖于连接类型的神经网络,然后输出(消息)。中心原子的特征通过输出来更新;e深度张量神经网络:没有明确的连接信息,特征由其他原子对应的物理距离更新;F ANI-1:特征由成对原子之间的距离信息(径向对称函数)和三个原子之间的角度信息(角度对称函数)构成。

表3:(测试集)性能总结:传统方法与基于图的方法。基于图的模型在11/17数据集上优于传统方法。

这篇文章是为机器的核心编写的。请联系本微信官方账号进行授权。

1.《molecule 学界 | 斯坦福论文提出MoleculeNet:分子机器学习新基准》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《molecule 学界 | 斯坦福论文提出MoleculeNet:分子机器学习新基准》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/811125.html

上一篇

张泮林 10年汶川地震后的一句诺言 幸存女孩成为“白衣天使”

下一篇

杀害空姐嫌犯溺亡 杀害空姐嫌犯溺亡 遇害空姐父亲:遗憾凶手未被严惩 将继续追责

网络精准营销 可怕的大数据时代:网络精准营销渐成“黑灰产业”

网络精准营销 可怕的大数据时代:网络精准营销渐成“黑灰产业”

依托大数据,分析用户消费习惯,有针对性地推送业务信息。然而,一些平台利用客户信息发布虚假广告,诱导购物消费。“贴心”服务不贴心精准推送给网络消费带来便利的同时,也为犯罪分子创造了机会。一些知名移动平台利用用户信息发布虚假广告,诱导用户消费作为一名年轻的母亲,我经常去...

原和玉 郑佩佩和女儿原子鏸一起演慰安妇 谈房祖名涉毒很唏嘘

68岁的程沛沛因为参加了湖南卫视的《花儿与少年》再次走红。正因为如此,她早年的旧闻被炒得沸沸扬扬。20岁时,瑛远嫁美国,怀孕8次,流产4次,离婚后回港住佛寺...这个故事听起来相当悲伤。但她40岁历经磨难重新站稳脚跟重返演艺圈的传奇经历,却让人看到了这个“女人”的铮...

郑佩佩儿子 郑佩佩和女儿原子鏸一起演慰安妇 谈房祖名涉毒很唏嘘

68岁的程沛沛因为参加了湖南卫视的《花儿与少年》再次走红。正因为如此,她早年的旧闻被炒得沸沸扬扬。20岁时,英远嫁美国,怀孕8次,流产4次,离婚后回港住佛寺...这个故事听起来相当悲伤。但她40岁历经磨难重新站稳脚跟重返演艺圈的传奇经历,却让人看到了这个“女人”的铮...

东方龙马 东方龙马:数据显示,APM成为ITOM成长最快的领域,市场份额惊人

  • 东方龙马 东方龙马:数据显示,APM成为ITOM成长最快的领域,市场份额惊人
  • 东方龙马 东方龙马:数据显示,APM成为ITOM成长最快的领域,市场份额惊人
  • 东方龙马 东方龙马:数据显示,APM成为ITOM成长最快的领域,市场份额惊人

海量数据处理 海量数据处理面试题小结

对大量数据进行无重复排序 bitmap法。示例:电话号码排序 使用重复的海量数据进行排序 示例:存在重复的电话号码排序 你可以把电话号码想象成一个大整数。 自己猜答案: 方法1: 外部排序。分成几个小文件,对小文件进行排序。然后合并小文件。(缺点是需要大量IO,耗费...

2017春运 2017春运大数据报告出炉 火车返乡人均耗费15.36小时

据预测,2017年春节期间发送旅客量将达到29.78亿人次,创历史新高。昨日,记者获悉,360互联网安全中心和360浏览器发布了《2017年春节网上购票大数据报告》。报道称,北上广深运送了全国61%的乘客,每人坐火车回家需要15.36小时。根据《报告》大数据分析,2...

身份证大轨迹 大数据配“大漏洞”?公安部对“身份证大轨迹”作出回应

12月12日,《南方都市报》刊登了其记者做的一项新闻调查——只要最低缴费700元,就可以购买到一套完整的“身份证大追踪”信息查询服务。报道称,所有的私人信息,包括开房记录、名下资产、乘坐航班,甚至网吧上网记录信息,只要有人付费,都很容易找到。公开出售与黑市泛滥的电商...

石井香织 数据治理和网络安全研究联盟2018年年度论坛即将召开

  • 石井香织 数据治理和网络安全研究联盟2018年年度论坛即将召开
  • 石井香织 数据治理和网络安全研究联盟2018年年度论坛即将召开
  • 石井香织 数据治理和网络安全研究联盟2018年年度论坛即将召开