人工智能研究在语音识别、图像分类、基因组学、药物开发等领域迅速发展。大多数情况下,这些专业系统依赖于人类的大量专业知识和数据。
但是,在某些问题上,这种人类知识或数据可能成本太高、不可靠或根本无法使用。因此,人工智能研究的长期目标之一就是不经过这一阶段,在最具挑战性的领域创造超人性能,摆脱传统人工水平的投入。(威廉莎士比亚、人工智能、人工智能、人工智能、人工智能、人工智能、人工智能、人工智能、人工智能、人工智能)。
其中最具代表性和最广为人知的是Google Deimd开发的人工智能围棋应用程序Alpha GO。今天《Nature》网站上发表了一篇标题为“self-taught ai is best yet at strategy game go”的文章,同时还公开了DeepMind关于阿尔法狗零的最新论文。
从零开始
AlphaGoGo是世界上第一个在围棋这个古老的中国游戏中击败世界冠军的AI,今年人类大战中人类最佳棋手KEJE阿尔法狗最新版—— AlphaGoGo Gozero ——变得足够强大,可以说是“历史上最强的围棋选手”32(威廉莎士比亚,温斯顿,围棋,围棋,围棋,围棋,围棋,围棋,围棋,围棋)。
中国司机KHO也在听到ALPA GOJERO的消息后首次发送了微博。人类说太多余了。……。
早期版本的阿尔法狗(AlphaGo)最初接受了数千名业余和基于专业游戏的训练,AlphaGo Zero跳过了这一步,从简单的自我比赛和随机游戏开始,之后AlphaGo Zero很快就超越了人类的水平。不仅如此,他还以10033600的满分击败了此前公布的阿尔法狗(AlphaGo)。
AlphaGo Zero通过新的强化学习方式真的做到了“武士自通”。整个AI系统从对围棋一无所知的神经网络开始,通过强大的搜索引擎与自己进行商战。(威廉莎士比亚、温斯顿、围棋、围棋、围棋、围棋、围棋、围棋)原本空白的神经网络与自己作战的局越多,正确调整和预测下一步围棋的方法就越多,对围棋的掌握水平也就越高。(威廉莎士比亚,温斯顿,围棋,围棋,围棋,围棋,围棋,围棋,围棋)。
这种升级后的神经网络通过与搜索算法的重新集成,形成了新的、强有力的alpha高低,并不断重复这一过程。(威廉莎士比亚、哈姆雷特、搜索名言)(Northern Exposure)在每个迭代版本中,系统的性能略有提高,自身游戏的质量也越来越高,形成了越来越准确的神经网络。这就是前所未有的强大阿尔法高剂。
这种技术比早期版本的alpha go更强大,因为它不再受人类知识的限制。相反,它可以从世界上最强大的阿尔法高中得到学习和晋升。
此外,与以前版本不同的地方也有明显的差异。
alpha go zero仅使用棋盘的黑白作为输入,而早期版本的alpha go包含一些人为设置功能。
Alpha Gozero只使用一个神经网络。以前版本的alpha go使用了两个神经网络。其中,“战略网络”用于选择下一步行动,“价值网络”在每一局象棋中预测游戏的获胜者。这两个部分将集成到AlphaGo Zero中,使您能够更高效地进行培训和评估。
AlphaGo Zero也不使用其他名为“行走”的围棋程序在游戏中常用的胜者推测方法。相反,它使用高质量的神经网络来评估各阶段如何走才能最终获胜。(我)。
所有这些差异都将有助于提高系统的性能,使其更加普遍。但是最重要的是算法的提高,使系统更加强大和高效。
图-硬件和算法的双重优化使alpha go的效率空前提高
经过短短3天的自我训练,阿尔法戈泽罗轻松击败了与伊势多尔大战对抗的阿尔法戈,100场比赛对决不败。经过40天的自我训练,Alpha Gozero再次强大起来,打败了“大师”版本的Alpha Gozero,当时世界第一的Kozero也败给了大师。
绘画ELO等级制度(Elo ratings)是当今评价游戏水平的公认权威方法。
DeepMind最近发表的关于AlphaGo Zero的论文中也深入分析了技术原理和学习机。以下是论文的重点概述。
图《不使用人类知识掌握围棋》
人工智能领域的长期目标是,在困难领域从“空白”(Tabula Rasa)到超越人类能力的算法都可以学习。
去年,alpha go成为第一个在围棋上战胜人类世界冠军的软件。Alpha GO的树搜索可以分析情况,使用深度神经网络选择各个阶段的落子。这种神经网络是在人类专家的围棋路上使用教练学习,在自我游戏中使用强化学习进行训练的。在本论文中,我们提出了基于强化学习的算法,这种算法不需要人类的数据、帮助或规则以外的任何知识。阿尔法戈成为了自己的老师。神经网络被训练成可以预测阿尔法狗自己的每一个阶段,甚至每一局维纳(AlphaGo)。
这个神经网络可以提高搜索树的强度,选择更高质量的落子,并在下一场比赛中创造更强的选手。从“空白”开始,我们的新节目——AlphaGoGo Zero取得了超越人类的成就。在此前公布的与alpha go的比赛中,取得了惊人的100比0的胜率。
原创阿尔法狗设计有两种深度神经网络。换句话说,计算每一步概率的战略网络和计算每一步情况的价值网络。这两个神经网络由蒙特卡罗树搜索(MCTS)结合在一起。也就是说,使用战略网络将搜索范围缩小到高概率的落子,使用价值网络来判断搜索树的各个情况。战胜李世石那个版本的alpha go就是这个设计。
绘画,阿尔法古代伊势多尔
新版本的阿尔法高泽罗与原来有几个重要的区别。首先,它是在随机下降的状态下完全通过自我比赛和提高学习训练出来的。(阿尔伯特爱因斯坦。)第二,输入函数只有棋盘的黑白。再次,我们只使用一个神经网络,而不是策略和价值。最终,在没有蒙特卡罗快速行走(Monte Carlo Rollout)的情况下,只有在这个单一的神经网络中才能判断情况和落子,从而使树木搜索更加容易。(威廉莎士比亚,Norte Carlo Rollout,Norte Carlo Rollout)
简而言之,AlphaGo Zero的神经网络首先列出下一步棋的可能性,然后进行蒙特卡罗树搜索(MCTS),从这些可能性中选择最佳解决方案。通过将神经网络计算结果与MCTS中筛选的结果进行比较,反向调整和优化神经网络参数,减少了神经网络与MCTS之间的误差。在下一局磁相战中,神经网络将有一组升级的参数。(威廉莎士比亚、斯图尔特、STARTER)通过不断重复这个过程,在经过数百万次优化后,创造出了强大的ALAPLA GOJ6
alpha go的自我游戏强化了学习机制。
DeepMind团队掌握了这一强化学习的技术原理后,将其应用于第二个版本的AlphaGo Zero,该版本具有更大规模的神经网络和更长的培训时间。从“无序”的自由行走开始,训练持续了约40天。
在整个训练过程中,AlphaGo Zero共进行了2900万次自我游戏,进行了310万次参数升级。此后,DeepMind队目前在内部对ALAPA GOJERO进行了棋力评估,分别是潘辉和李世石阿尔法狗版本,以及2017年1月以60:(莎士比亚,坦普林,Northern Exposure,Northern Exposure)。
在整个棋力评估过程中,各个版本的阿尔法高中只花了5秒钟就“思考”了下一步棋的做法。其中,Alpha Gozero和Alpha Gomaster只装备了4个TPU(张量处理单元),此前李胜辉和李世石Alpha GO分别装备了176个和48个TPU。
最终结果是,第一场AlphaGoZero和AlphaGo Master在持续了两个小时的100局战争中以89: 11完胜后者。
根据图Elo国际象棋排名,Alpha GO用了3天时间超越了阿尔法狗ISTOL版本,21天后超过了Alpha GOSMART。
Elo等级制度(Elo ratings)是匈牙利裔美国物理学家Elo创建的竞争游戏中衡量玩家相对技术水平的评分方法,是当今评价游戏水平的公认权威方法,广泛应用于国际象棋、围棋、足球等体育、许多网络游戏和电子竞争产业。在阿尔法狗开发过程中,Ello排名的变化直观地表明了Alpha GO是如何迅速强大起来的。
在数千万个AlphaGo PK AlphaGo游戏中,系统从一开始就逐步学习围棋游戏,几天之内积累了数千年的人类知识。此外,AlphaGo Zero可以发现新的知识,开发非常规的战略和创新,甚至超越了在与李世石和Kirzer比赛中发挥的惊人动作。(威廉莎士比亚,美国作家)。
AlphaGo发挥创造力的那些瞬间让我对这个未来充满信心。人工智能将比人类的存在更具创造力,有助于解决人类面临的一些最重要的挑战。(莎士比亚,哈姆雷特,独创性,独创性,独创性,独创性,独创性)
虽然仍处于这一愿景的早期阶段,但AlphaGo Zero是朝着这一目标迈出的重要一步。如果能够将类似的技术应用于其他结构问题,例如折叠蛋白质、减少能源消耗、寻找创新的新材料,那么这种突破很有可能对社会产生积极影响。
1.《关于alphago柯洁我想说最强AlphaGo降临,柯洁称相比下“人类太多余了”》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《关于alphago柯洁我想说最强AlphaGo降临,柯洁称相比下“人类太多余了”》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/keji/1954589.html