深圳露营相关介绍,车水马龙,行人匆匆......我们习惯了城市的繁华与喧嚣,却被忙碌的工作时时缠身,被无处安放的焦虑吞噬。 达到当天最大量API KEY 超过次数限制到野外...
深圳露营相关介绍,车很乱,行人匆匆。我们习惯了城市的繁华和喧嚣,但被繁忙的工作所束缚,陷入了无处安放的不安之中。(莎士比亚)。 到野外去看星空,在天幕下享用美食,在...
深圳露营相关介绍,车水马龙,行人匆匆......我们习惯了城市的繁华与喧嚣,却被忙碌的工作时时缠身,被无处安放的焦虑吞噬。 达到当天最大量API KEY 超过次数限制到野外...
如何处理智能手环断开相关介绍,华为荣耀手环零首次启动。 年内,华为又迈出了一步,荣耀祭发布了手镯。 紧接着无数网站都放出了测评文章,看得我心头长草,决定买买买! 千...
adizeroboston怎么样相关介绍,Adidas为波士顿马拉松制作的adiZero Boston 7将于3月23日发行。 adiZero Boston 7 以功勋竞速马鞋 adizero Adios 为蓝本,以编织鞋面...
100元以下的手机众筹相关介绍,2019年初,魅族发布了世界上第一款武功手机零。随后,在Indiegogo举行的10万美元全球募捐(1299美元,2999美元)未能实现,手机沉没。 没想到...
100元以下的手机众筹相关介绍,2019年初,魅族发布了世界上第一款武功手机零。接着,在Indiegogo举行的10万美元全球募捐(1299美元,2999美元)未能实现,这款手机沉没了。 ...
100元以下的手机众筹相关介绍,2019年初,魅族发布了世界上第一款武功手机零。随后,在Indiegogo举行的10万美元全球募捐(1299美元,2999美元)未能实现,手机沉没。 没想到...
zero最近怎么不直播了相关介绍,2014年,BC站首次侵犯了从爱奇艺购买的日本新版动画版权,因受到爱情技艺而上了法庭。开始被媒体所提。 随后2015年b站开始版权化,再加...
zero最近怎么不直播了相关介绍,我记得的是,在被其他视频 网站 大加指责后开始崛起。...
zero最近怎么不直播了相关介绍,2014年,BC站首次侵犯了从爱奇艺购买的日本新版动画版权,因受到爱情技艺而上了法庭。开始被媒体所提。 随后2015年b站开始版权化,再加...
zero最近怎么不直播了相关介绍,2014年,b站初次是因侵犯爱奇艺购买的日本新番动画版权,被爱奇艺搞上法庭。开始被媒体所提。 随后2015年b站开始版权化,再加上中国文化...
选择当地主来玩玩看,可以打开显示AI手牌功能,更容易观察AI决策过程。另外可以设置AI考虑时间,默认是3秒。
有时可以看到AI并不是简单的选择当前胜率最高的打法,而是有更全局的考虑。
斗地主对AI来说,很难
从博弈论的角度看,斗地主是“不完全信息博弈”。
围棋是所有棋子都摆在棋盘上,对弈双方都能看到的完全信息博弈。
而斗地主每个玩家都看不到其他人的手牌,对于AI来说更有挑战性。
在棋牌类游戏中,虽然斗地主的信息集的大小和数量不如麻将,但行动空间有10^4,与德州扑克相当,而大多数强化学习模型只能处理很小的行动空间。
斗地主的所有牌型总共有27472种可能。
像下图的手牌就有391种打法。
且斗地主的行动不容易被抽象化,使搜索的计算成本很高,像Deep Q-Learning和A3C等强化学习模型都只有不到20%的胜率。
另外作为不对称游戏,几个农民要在沟通手段有限的情况下合作并与地主对抗。
像扑克游戏中最流行的“反事实后悔最小化”(Counterfactual Regret Minimization)算法,就不擅长对这种竞争和合作建模。
全局、农民和地主网络并行学习
首先将手牌状态编码成4x15的独热(one-hot)矩阵,也就是15种牌每种最多能拿到4张。
DouZero是在Deep Q-Learning的基础上进行改进。
使用LSTM(长短期记忆神经网络)编码历史出牌,独热矩阵编码预测的牌局和当前手牌,最终用6层,隐藏层维度为512的MLP(多层感知机)算出Q值,得出打法。
除了“学习者”全局网络以外,还用3个“角色”网络分别作为地主、地主的上家和下家进行并行学习。全局和本地网络之间通过共享缓冲区定期通信。
△学习者和角色的算法DouZero在48个内核和4个1080Ti的一台服务器上训练10天击败了之前的冠军,成为最强斗地主AI。
下一步,加强AI间的协作
对于之后的工作,DouZero团队提出了几个方向:
一是尝试用ResNet等CNN网络来代替LSTM。
以及在强化学习中尝试Off-Policy学习,将目标策略和行为策略分开以提高训练效率。
最后还要明确的对农民间合作进行建模。好家伙,以后AI也会给队友倒卡布奇诺了。