[新支援指南]还记得那年科济和阿尔法狗战役失败后失声痛哭吗?(阿尔法狗后面的模型训练)你知道要燃烧多少经费吗?这篇文章告诉你答案。
那一年,19岁的世界围棋第一人科泽球队在与alpha go的围棋终极人类大战中以0:3完胜。这是人类最好的高手和这台机器之间的最后一场竞争,alpha go将从此退役江湖。
比赛到了中板时,柯洁再次对阿尔法狗的手法感到惊讶。他先摘下眼镜遮住自己的脸,接着趴在桌子上几秒钟,站起来摇摇头。再次俯卧,然后用手托着头,用双手擦眼睛,再戴上眼镜。
韩国高手李世多尔也遇到了Alpha GO,以三连败挽回了一局,输掉两场比赛的KJE也希望能在最后一句挽回面子,但遗憾的是,这次KJE整体陷入了下风。
2017年,机器学习领域最激动人心的事件之一是Alpha GO取得李世石胜利,成为世界上最好的围棋选手。
同年10月,DeepMind发表了一篇论文,说明AlphaGo Zero这个新版本。经过仅仅36个小时的训练,阿尔法戈泽罗比李世石失利更擅长下棋。
不仅如此,Alpha Gozero还学会了学围棋,但没有先验的游戏知识(即白板)。
相反,此前公布的alpha go在人类围棋比赛数据库的帮助下进行了训练。
这项成就确实非同寻常。因为这表明,我们在开发系统、自己在一张白纸上执行小任务、最终完成任务方面比人类做得更好。
另外,只要想象电脑能教会人类所有能做的事,现在全世界的可能性都可以触手可及。(约翰肯尼迪)。
但是取得这样的进步并不便宜。
就像人类掌握围棋需要多年的训练一样,计算机掌握围棋也需要大量的资源,再现阿尔法高杰罗的论文中报道的实验需要3500万美元的计算能力。
AlphaGo Zero学习围棋的方法是通过“自助玩”的过程模拟围棋对自己的比赛。这篇论文报告了以下几点:
1.在72个小时内共进行了490万场比赛
2.在自我游戏过程中,每个动作大约需要0.4秒
3.只要包含4个TPU,系统就会运行自己的游戏
但是这里有一个未公开的数字,就是用了三天的玩磁力游戏的机器数。据每盘围棋平均211个阶段的估计,最终获得了1595台自动对战机或6380个TPU。
根据每TPU每小时6.50美元的估计(截至2018年3月),只要再现,就需要2,986,822美元。
而这只是他们论文中的两个实验之一,的小实验。
“之后,我们使用了更大的神经网络,将强化学习管道应用于AlphaGo Zero的第二个实例,持续时间更长。训练再次从完全随机的行动开始,持续了约40天。”
"训练过程中发生了2900万场自我比赛."
这个40天的实验中使用的神经网络的层数(相同大小)是3天实验中使用的网络的两倍,所以假设实验没有其他变化,一个动作大约需要两倍的计算机思考时间。(大卫亚设)。
考虑到这一点,最终可以找到花费35,354,222美元的TPU,重现40天的实验。
关于DeepMind运营这个实验的实际成本,还有其他因素需要考虑(如研究人员的工资等)。但是,对于谷歌以外的人来说,这个数字是对重复这个实验所需费用的一个很好的估计。
另一种看AlphaGo Zero实验成本的方法是想象需要多少人的大脑来供给等量的能量。
图:机器被收购后,他们会更有效地使用我们的大脑
一个TPU消耗约40瓦,人的大脑大约20瓦。所以这个实验的耗电量相当于12760人的大脑持续运转。
这种功耗和金钱消耗并不表明AlphaGo Zero不是惊人的成就,而是向世界表明,为了自学复杂的任务而建立系统是可能的,但开发这种通用技术还没有提供给大众而已。
也就是说,很多具有现实价值的问题不需要超人般的表现。也许通过应用领域知识和Alpha Gozero提供的技术,以后这些问题可以以比制造Alpha Gozero低得多的成本得到解决。
1.《关于alphago柯洁我想说让柯洁痛哭的AlphaGo,耗电量相当于12760个大脑》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《关于alphago柯洁我想说让柯洁痛哭的AlphaGo,耗电量相当于12760个大脑》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1954461.html