10月19日,阿尔法狗重新进化,以100:0击败李世石老版本
伦敦当地时间10月18日18: 00,AlphaGo再次出现在世界顶级科学杂志《自然》上。
一年多前,AlphaGo是2016年1月28日本期的封面文章。Deepmind公司发表了一篇沉重的论文,介绍了这个击败欧洲围棋冠军范辉的人工智能程序。
今年5月,在以3:0击败中国棋手柯洁后,AlphaGo宣布退役,但DeepMind并没有停止研究。伦敦当地时间10月18日,DeepMind团队宣布了最强版的AlphaGo,代号AlphaGo Zero。它独特的秘密是“自学”。而且从一张白纸开始,零基础学习,短短3天就成为顶尖高手。
据该团队介绍,AlphaGo Zero已经超越了AlphaGo的所有前代版本。AlphaGo Zero以100:0的压倒性记录击败了曾经赢得韩国棋手李世石的AlphaGo版本。DeepMind团队于10月18日以论文的形式在《自然》杂志上发表了关于AlphaGo Zero的相关研究。
“AlphaGo两年的成绩令人震惊。现在AlphaGo Zero是我们最强的版本,进步了很多。零提高了计算效率,并且不使用任何人工围棋数据,”阿尔法围棋之父、深度思维联合创始人兼首席执行官戴密斯·哈萨比斯说。“最后,我们想利用它的算法突破来帮助解决各种紧迫的现实世界问题,比如蛋白质折叠或设计新材料。如果我们能够通过AlphaGo在这些问题上取得进展,那么它就有潜力促进人们对生活的理解,并以积极的方式影响我们的生活。”
不再受人类知识的限制,只使用4 TPU
以前版本的AlphaGo结合了数百万人类围棋专家的棋谱和监督学习来训练自己。
在击败人类围棋职业高手之前,它已经训练了几个月,依靠多台机器和48 TPU。
AlphaGo Zero的能力在此基础上进行了质的提升。最大的区别是它不再需要人类的数据。也就是说,它从一开始就没有接触过人类象棋。R&D队只是让它在棋盘上自由下棋,然后玩自我游戏。值得一提的是,AlphaGo Zero也非常“低碳”,只用一机四TPU,大大节约了资源。
AlphaGo Zero强化学习下的自我游戏。
经过几天的训练,AlphaGo Zero已经完成了近500万个自我游戏,并且已经能够超越人类,击败所有以前版本的AlphaGo。DeepMind团队在官方博客上说,Zero是用更新的神经网络和搜索算法进行重组的,随着训练的深入,系统的性能一点点提高。自我博弈的结果越来越好,同时神经网络也变得更加精确。
阿尔法零号获取知识的过程
“这些技术细节之所以比前一个版本更强,是因为我们不再受人类知识的限制,它可以借鉴——AlphaGo本身,Go领域的最高玩家。”AlphaGo团队负责人大卫·席尔瓦(David silva)表示。据大卫·席尔瓦说,AlphaGo Zero通过使用一种新的强化学习方法把自己变成了一名教师。一开始系统连Go是什么都不知道,而是从单个神经网络开始,通过神经网络强大的搜索算法自己下棋。
随着自博弈的增加,神经网络逐渐调整提高预测下一步的能力,最终赢得博弈。更有甚者,随着训练的深入,DeepMind团队发现AlphaGo Zero也独立发现了游戏规则,走出了一条新的策略,给围棋这个古老的游戏带来了新的感悟。
经过三天的自学,我打败了老AlphaGo
除了以上区别,AlphaGo Zero在三个方面与之前的版本有明显的不同。
AlphaGo-Zero培训时间表
首先,AlphaGo Zero只使用棋盘上的黑白字符作为输入,而上一代则包含了少量人工设计的特征输入。
其次,AlphaGo Zero只使用单一的神经网络。在之前的版本中,AlphaGo使用“策略网络”来选择下一步棋,使用“价值网络”来预测每一步棋之后的赢家。在新版本中,这两个神经网络被结合成一个,这样它可以得到更有效的训练和评估。
再次,AlphaGo Zero没有使用快速随机行走的方法。在以前的版本中,AlphaGo使用快速行走的方法从当前的情况来预测哪个玩家会赢得游戏。相反,新版本依靠其高质量的神经网络来评估下棋的情况。
AlphaGo几个版本的排名。
哈萨比斯和席尔瓦认为,这些差异有助于新版本的AlphaGo改进其系统,而算法的改变则使系统更强大、更有效。
仅仅经过三天的自我训练,AlphaGo Zero就以100:0的战绩击败了之前击败李世石的旧版AlphaGo。经过40天的自我训练,AlphaGo Zero再次击败AlphaGo Master。“大师”打败了世界顶尖围棋选手,甚至包括世界第一的柯洁。
对于以利用人工智能推动人类社会进步为使命的DeepMind来说,Go并不是AlphaGo的终极意义。他们的目标始终是使用AlphaGo创建一个宇宙探索的通用终极工具。随着AlphaGo Zero的推广,DeepMind看到了利用人工智能技术改变人类命运的突破。目前,他们正积极与英国医疗机构和电力能源部门合作,提高医疗效率和能源效率。
1.《阿尔法狗再进化 与打败李世石旧版100:0碾压》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《阿尔法狗再进化 与打败李世石旧版100:0碾压》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1040246.html