阿尔法狗再进化与打败李世石旧版100:0碾压

10月19日，阿尔法狗重新进化，以100:0击败李世石老版本

伦敦当地时间10月18日18: 00，AlphaGo再次出现在世界顶级科学杂志《自然》上。

一年多前，AlphaGo是2016年1月28日本期的封面文章。Deepmind公司发表了一篇沉重的论文，介绍了这个击败欧洲围棋冠军范辉的人工智能程序。

今年5月，在以3:0击败中国棋手柯洁后，AlphaGo宣布退役，但DeepMind并没有停止研究。伦敦当地时间10月18日，DeepMind团队宣布了最强版的AlphaGo，代号AlphaGo Zero。它独特的秘密是“自学”。而且从一张白纸开始，零基础学习，短短3天就成为顶尖高手。

据该团队介绍，AlphaGo Zero已经超越了AlphaGo的所有前代版本。AlphaGo Zero以100:0的压倒性记录击败了曾经赢得韩国棋手李世石的AlphaGo版本。DeepMind团队于10月18日以论文的形式在《自然》杂志上发表了关于AlphaGo Zero的相关研究。

“AlphaGo两年的成绩令人震惊。现在AlphaGo Zero是我们最强的版本，进步了很多。零提高了计算效率，并且不使用任何人工围棋数据，”阿尔法围棋之父、深度思维联合创始人兼首席执行官戴密斯·哈萨比斯说。“最后，我们想利用它的算法突破来帮助解决各种紧迫的现实世界问题，比如蛋白质折叠或设计新材料。如果我们能够通过AlphaGo在这些问题上取得进展，那么它就有潜力促进人们对生活的理解，并以积极的方式影响我们的生活。”

不再受人类知识的限制，只使用4 TPU

以前版本的AlphaGo结合了数百万人类围棋专家的棋谱和监督学习来训练自己。

在击败人类围棋职业高手之前，它已经训练了几个月，依靠多台机器和48 TPU。

AlphaGo Zero的能力在此基础上进行了质的提升。最大的区别是它不再需要人类的数据。也就是说，它从一开始就没有接触过人类象棋。R&D队只是让它在棋盘上自由下棋，然后玩自我游戏。值得一提的是，AlphaGo Zero也非常“低碳”，只用一机四TPU，大大节约了资源。

AlphaGo Zero强化学习下的自我游戏。

经过几天的训练，AlphaGo Zero已经完成了近500万个自我游戏，并且已经能够超越人类，击败所有以前版本的AlphaGo。DeepMind团队在官方博客上说，Zero是用更新的神经网络和搜索算法进行重组的，随着训练的深入，系统的性能一点点提高。自我博弈的结果越来越好，同时神经网络也变得更加精确。

阿尔法零号获取知识的过程

“这些技术细节之所以比前一个版本更强，是因为我们不再受人类知识的限制，它可以借鉴——AlphaGo本身，Go领域的最高玩家。”AlphaGo团队负责人大卫·席尔瓦(David silva)表示。据大卫·席尔瓦说，AlphaGo Zero通过使用一种新的强化学习方法把自己变成了一名教师。一开始系统连Go是什么都不知道，而是从单个神经网络开始，通过神经网络强大的搜索算法自己下棋。

随着自博弈的增加，神经网络逐渐调整提高预测下一步的能力，最终赢得博弈。更有甚者，随着训练的深入，DeepMind团队发现AlphaGo Zero也独立发现了游戏规则，走出了一条新的策略，给围棋这个古老的游戏带来了新的感悟。

经过三天的自学，我打败了老AlphaGo

除了以上区别，AlphaGo Zero在三个方面与之前的版本有明显的不同。

AlphaGo-Zero培训时间表

首先，AlphaGo Zero只使用棋盘上的黑白字符作为输入，而上一代则包含了少量人工设计的特征输入。

其次，AlphaGo Zero只使用单一的神经网络。在之前的版本中，AlphaGo使用“策略网络”来选择下一步棋，使用“价值网络”来预测每一步棋之后的赢家。在新版本中，这两个神经网络被结合成一个，这样它可以得到更有效的训练和评估。

再次，AlphaGo Zero没有使用快速随机行走的方法。在以前的版本中，AlphaGo使用快速行走的方法从当前的情况来预测哪个玩家会赢得游戏。相反，新版本依靠其高质量的神经网络来评估下棋的情况。

AlphaGo几个版本的排名。

哈萨比斯和席尔瓦认为，这些差异有助于新版本的AlphaGo改进其系统，而算法的改变则使系统更强大、更有效。

仅仅经过三天的自我训练，AlphaGo Zero就以100:0的战绩击败了之前击败李世石的旧版AlphaGo。经过40天的自我训练，AlphaGo Zero再次击败AlphaGo Master。“大师”打败了世界顶尖围棋选手，甚至包括世界第一的柯洁。

对于以利用人工智能推动人类社会进步为使命的DeepMind来说，Go并不是AlphaGo的终极意义。他们的目标始终是使用AlphaGo创建一个宇宙探索的通用终极工具。随着AlphaGo Zero的推广，DeepMind看到了利用人工智能技术改变人类命运的突破。目前，他们正积极与英国医疗机构和电力能源部门合作，提高医疗效率和能源效率。

1.《阿尔法狗再进化与打败李世石旧版100:0碾压》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《阿尔法狗再进化与打败李世石旧版100:0碾压》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/jiaoyu/1040246.html