在过去的20年里,从象棋到德州扑克,人机对战背后的机器是如何进化的?
作者|一柳一柳是邓晶吗
这篇文章是从顶楼的俯视图转载的
2017年4月6日至10日,卡内基梅隆大学开发的人工智能天平将在海南与6名中国德州扑克选手进行为期5天、共计45小时的比赛。
这是AlphaGo在Go领域杀尽各方后AI对人类的新挑战。本文将为你梳理一下这20年来人机对战经历了哪些关键节点,AI发生了哪些演变?
象棋人机对战
关键词:计算能力
1996年2月,美国费城,当时名为“世纪大战”的比赛。
棋坛的棋王卡斯帕罗夫不是挑战者。
卡斯帕罗夫的对手是IBM的超级象棋电脑“深蓝”,后者已经为这场比赛做好了充分的准备。
每一轮棋,一个棋手可以有35个左右不同的棋局选择,这些选择的推导结果是单线程的,从A到B到c,随机不可控因素较小,局部输赢不影响整体战局的关系。双方的决策可以更直接的控制整个局势的走向。
换句话说,象棋比赛在很大程度上是棋手计算能力的较量。
为了比对手更精准,世界棋王卡斯帕罗夫用深蓝C语言录入了过去100年超过200万场的优秀选手。这台电脑重1270公斤,有32个节点。每个节点有8个专门为下棋设计的处理器,运行速度达到每秒1亿次。
1997年,电脑深蓝第一次击败了全国大象棋王卡斯帕罗夫
然而在96年的六场比赛中,深蓝最终以2:4落败。
在第一次挑战失败后的一年里,IBM工程师将深蓝的运行速度提高了一倍,达到每秒2亿次。但是深蓝不是电脑之王。事实上。当时深蓝在全球超级计算机中排名第259位。即便如此,深蓝依然可以计算出选择最佳策略的所有方式:新深蓝通过硬计算可以预测12步,而卡斯帕罗夫只能预测10步。
1997年5月,深蓝再次挑战棋王卡斯帕罗夫。前五场比赛,2.5比2.5平的时候,棋王在第六盘最后一局仅仅19步就输给了深蓝。最终深蓝电脑3.5:2.5获胜(1胜2负3平),成为首个在标准比赛时限内击败世界象棋冠军的电脑系统。
赛后,“深蓝”队宣布了一个秘密。每场比赛结束后,球队会根据卡斯帕罗夫的情况修改具体参数。深蓝虽然不会思考,但这些任务实际上迫使它“学习”,这也是卡斯帕罗夫找不到有效方法对付深蓝的主要原因。
电视智力竞赛节目战
关键词:自然语言理解,数据库,计算能力。
2011年,IBM的超级计算机沃森宣布参加美国综合挑战项目《危险边缘》。这个电视问答节目开始于1964年,游戏中的问题包罗万象,几乎涵盖了人类文明的所有领域。
沃森在“危险边缘”节目中遥遥领先
人类玩家詹宁斯和鲁特是这个领域的顶级高手。前者创下了连续74场胜利的记录,后者总共获得了325万美元的奖金,但仍然不是沃森的对手。比赛第三天,沃森以41413美元的比分锁定胜局,而两名人类选手分别只拿到19200美元和11200美元。
沃森的胜利背后是一个挑战和两个优势。
沃森的第一个问题是自然语言理解。沃森能否与主持人互动,理解主持人自然语言的语义和语气,甚至区分问题中的双关、隐喻等信息,是沃森回答的前提。
突破这一关后,沃森如鱼得水。首先,它有强大的信息源。这些包括百科全书、字典、词典、新闻和文学作品,以及数据库、分类学和本体论。虽然竞争中没有互联网连接,但4TB磁盘上仍有2亿页结构化和非结构化信息供其使用。
其次,它具有强大的计算能力。
沃森基于16TB内存和2880 Power 7系列处理器,是当前架构中最强的处理器。这意味着沃森很快。第一种是快速检索,可以在3秒钟内检索出数百万条信息,选出三个最有可能的答案;二是快速判断,能根据场上情况快速做出是否回答的决定;三是快速回答。当其中一个答案的可能性超过50%时,立即开始回答。它主宰着整个游戏,超越了人类的速度。
阿尔法围棋和围棋人机大战
关键词:深度学习,神经网络
围棋曾经是人工智能无法企及的战场。
在象棋中,平均每回合有35种可能,一局棋可以有80回合,而围棋每回合有250种可能,一局棋最多可以打150回合。同时,在一个围棋游戏中,有多达3到361次方的不同情况。
李世石和alpha go 1:4不敌
另外围棋的博弈是几场局部战争综合的最终结果,同时局部各部分相互影响,算法无法穷尽。更专业一点说,Go的难点在于估值功能非常不流畅,可能会被一个子盘翻个底朝天。
Google的AlphaGo程序突破了传统计算机的“固定”程序逻辑,融入了深度学习和神经网络的能力。这个深度神经网络由策略网络和价值网络组成,策略网络负责缩小搜索的宽度——面对眼前的一盘棋,有些招式显然不应该采取。这样AI就可以专注于分析那些有玩法的棋局了。价值网负责减少搜索的深度——AI在计算的时候会判断情况,在情况明显不如的时候,会直接放弃一些路线,而不是算作黑。
AlphaGo已经用这两个工具学会了人类所有的棋谱。经过几千万次的自我玩法和学习,AlphaGo不仅可以模仿人类棋手的思维,甚至可以超越他们。2016年3月,在与AlphaGo的人机对战中,来自韩国的世界围棋冠军李世石以1: 4落败。
这个游戏除了计算能力之外,还暴露了机器的其他优势:在场上,人会因为比赛环境、压力等外界或情绪因素影响判断,而机器不会;在几个小时的战斗中,人会因疲劳而分心,但机器总能保持注意力。竞技场外,人们每天可以做有限的练习,而AI可以以人类一万多倍的速度练习。
李世石赛后接受采访时说:“要适应与AlphaGo的比赛,第一个挑战就是心理方面,需要极大的关注。继续玩下去不一定能赢,因为不能比它更专注,这些方面都赢不了。”
2017年3月,升级版AlphaGo《恒大师》/[/k0/】诞生,通过下快棋连续拿下60盘职业大师赛,其中包括中国最强棋手柯洁。
AlphaGo2.0于2017年初发布。相对于1.0,这个版本可以称之为“自学”。1.0版的AlphaGo是以人类所有的棋谱为基础的,无论AlphaGo怎么走,都只是计算出一个人类棋手已经走了的某一步,充其量是一个完美的“人类棋手”。AlphaGo的2.0版使用这种“完美玩家”的评价功能,与自己对战,进行“深度学习”,超出了人类棋谱的范围,是真正的机器计算出来的棋法。
2017年4月,AlphaGo还将与柯洁进行一场人机大战,这可能是Go领域最后一场人机大战。
德州扑克人机大战
关键词:不完全信息博弈
2017年1月11日至1月30日,卡耐基梅隆大学开发的人工智能天平与四名顶尖人类德州扑克选手之间的“人机大战”在美国匹兹堡举行。经过20天的比赛,一共打了12万手,最后人工智能赢了。
与以前在象棋比赛中与人类智能竞争不同的是,人工智能在德州扑克中对人类的挑战反映了人工智能值得更多关注的进化方向。
在围棋和象棋的游戏中,双方的所有信息一目了然,本质上是信息对称的游戏,而德州扑克是信息不对称的游戏,每个玩家只能看到自己的一手牌。这就决定了人工智能首先需要面对大量的不完全信息。
因此,德普的背后是一个大型的AI协商算法。“冷大师”不是基于大数据、深度学习、强搜索等传统AI方法;但基于博弈论,在比赛的同时动态优化了胜率最高的数学模型。这不仅包括概率统计和操作策略,还包括大量的信息处理计算。CMU计算机科学学院院长安德鲁·摩尔在一次采访中说:“如果你想让人类计算这个程序,人类大约需要1000万个小时。”
同时,冷普大师也面临着挑战。德州扑克更接近人性,因为信息是隐藏的,玩家可以诚实或者欺诈的表达出来,也就是德州扑克中的虚张声势手法。但机器显然不能通过对手的动作表现来判断对手牌的强弱,也不能用身体和神态表演来忽悠对手。
在比赛中,冷大师不能使用德州扑克中的虚张声势技巧
百度首席科学家吴恩达曾指出:“扑克(不完美的信息游戏)是人工智能最难攻克的游戏之一。每一步都没有所谓的最优解,人工智能要采取随机策略,这样当它虚张声势的时候,对方就没有把握了。”
相比围棋AI,德州扑克AI在空应用广泛。在现实世界中,不完美的信息博弈是常态,比如曾经被认为是人类独有优势的商务谈判、医疗计划制定等领域,未来将面临机器的挑战。
结论:
从1996年到2017年,人工智能与人类的四次竞赛,从侧面反映了AI的进化:从在计算能力上超越人类,到学习自然语言理解,再到深度学习,直到掌握不完美的信息游戏。在这21年里,机器不仅获得了更高的智商,情商也输给了人类。尤其是AI在其最难的游戏德州扑克中挑战人类,意味着什么,会带来什么机遇和挑战?
4月10日上午10:00-12:00,Geek Park将携手创新作品,与卡内基梅隆大学计算机科学教授Tuomas Sandholm、创新工场董事长李开复博士、国内5家科技公司创始人共同探讨德州扑克ai“冷冲大师”背后的技术逻辑,探讨AI未来会产生哪些更深层次的影响。
这是极客公园前沿社组织的第一次闭门交流。极客园前沿社是一个创业者社区,通过尖端的技术交流和最高效的学习机制,帮助创业者提升自我,发现商业创新的新可能。欢迎关注极客公园前沿社会微信官方账号,访问官方网站f.geekpark.net,可以收获独家深度内容,共同思考,刷新认知。
1.《人机对战 人机对战简史:从国际象棋到德州扑克》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《人机对战 人机对战简史:从国际象棋到德州扑克》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1582661.html