当前位置:首页 > 体育

deepmind Deepmind AMA:你想了解的关于Deepmind的一切都在这里了!

雷锋。com:刚才,Deepmind在Reddit的机器学习版块举办了一个在线问答活动AMA。深度思维强化学习小组组长大卫·西尔弗和他的同事们热情地回答了网友们提出的各种问题。由于深度思维在AMA会议的前一天刚刚发表了《掌握没有人类知识的围棋》一文,相关的问题和讨论非常热烈。

什么是AMA?

《AMA》(什么都问我)是Reddit的一个特别专栏。也可以理解为网上的“真相或真相冒险”。AMA通常会指定一个时间,提前几天在Reddit上收集问题,然后统一回答。

这个深度思维AMA的答案是:

大卫·西尔弗:深度思维强化学习小组组长,阿尔法狼首席研究员。大卫·西尔弗1997年毕业于剑桥大学,并获得爱迪生·韦斯利奖。大卫于2004年在阿尔伯塔大学获得计算机科学博士学位,并于2013年加入DeepMind。他是AlphaGo项目的主要技术负责人。

朱利安·施里特维瑟:深度思维软件工程师,深度思维。

此前,很多机器学习领域的大牛/公司在Reddit机器学习设立了AMA,包括Google Brain Team、OpenAI Research Team、吴恩达和Adam Coates、于尔根·施密德胡贝尔、杰弗里·辛顿、迈克尔·乔丹、Yann LeCun、Yoshua Bengio等。

雷从今天的《深度思维》中选取了几个有代表性的问题,整理如下:

关于论文和技术细节

问:为什么DeepMind Zero训练这么稳定?深度强化学习不稳定,容易遗忘,自我对抗也是如此。没有良好的初始化状态和基于模仿的历史检查点,两者的结合应该是一场灾难...但是零从零开始,我在论文里没看到这部分。你是怎么做到的?

大卫·西尔弗:深度强化学习中,AlphaGo Zero和典型的非模态算法(如策略梯度或Q学习)采用完全不同的算法。通过使用AlphaGo搜索,我们可以大大提高策略和自匹配的结果,然后通过简单的基于梯度的更新来训练下一个策略和价值网络。与简单的基于梯度的策略改进相比,这种方法将更加稳定。

问:我注意到ELO年级上升的数据只到了第40天。是因为论文截止日期吗?还是说AlphaGo的数据在那之后没有明显改善?

大卫·西尔弗:AlphaGo已经退役了!这意味着我们在将人员和硬件资源转移到其他人工智能问题上还有很长的路要走。

问:关于论文的两个问题:

Q1:你能解释一下为什么AlphaGo的剩余块输入大小是19x19x17吗?不知道为什么每个对手都需要用8个堆叠的二值特征层来描述。我觉得一两层就够了。虽然不太懂围棋100%的规则,但八级好像有点过了?

Q2:既然整个渠道都是通过自配和最新/最好的车型对比,你觉得参数/[/k0/】之间是否存在特定SGD行车轨迹对过拟合的风险?

大卫·西尔弗:现在用表现法可能比用8层栈好!但是,我们用叠加来观察历史数据,有三个原因:1)与其他领域的常用输入一致;2)我们需要一些历史状态来代表KO;3)如果有一些历史数据,我们可以更好的猜测对手最近的位置,可以作为一个关注机制(雷锋网注:在围棋中,这叫“敌人的关键点就是我的关键点”),而第17层是用来标记我们现在打的是黑还是白子,因为要考虑发帖的目的。

问:借助强大的象棋引擎,我们可以给玩家一个评级——比如Elo Go等级是通过玩家的比赛分析逐步获得的,那么AlphaGo能否在等级之前分析玩家的实力?这可能会为研究人类认知提供一个平台。

朱利安·施里特维瑟:谢谢分享,这是个好主意!

我觉得这个完全可以在Go中做到,或许是利用最佳反应和实际反应的价值差,或者是政策网评估每手牌位置的概率?等我有空再试试。

问:AlphaGo既然退役了,有没有开源的计划?这对Go社区和机器学习研究都会产生很大的影响。还有,乌镇哈萨比斯宣布的Go工具什么时候发布?

大卫·西尔弗:现在这个工具正在准备中。你很快就会看到新消息。

问:在Q:AlphaGo的开发过程中,系统架构遇到的最大障碍是什么?

大卫·西尔弗:我们遇到的主要挑战之一是和李世石的比赛。当时我们意识到AlphaGo偶尔会受到我们所谓的“错觉”的影响,也就是说程序可能会曲解当前的盘情,继续往错误的方向走很多步。我们尝试了很多方案,包括引入更多的围棋知识或者人类元知识来解决这个问题。但最终我们成功了,从AlphaGo本身解决了这个问题,更多的依靠强化学习的力量来获得更高质量的解决方案。

围棋爱好者的问题

问:1846年,在第14届霍尼波的秀策和第11届井上幻影祖辈的殷硕的比赛中,秀策手下的第127手使幻影祖辈目瞪口呆,耳根发红,成为扭转败局的“赤手”。如果是AlphaGo,还会下同样的棋吗?

朱利安·施里茨维瑟:我问过范辉,他的回答是这样的:

当时围棋没有贴一个网,但是在AlphaGo的游戏中,黑棋需要贴7.5个网。不同的发帖情况造成了古今棋局的差异。如果当年允许AlphaGo穿越到下一手,很有可能会换个地方玩。

问:根据已公布的AlphaGo比赛,有更多的时间去拿白子,所以很多人猜测7.5目贴纸太高了(雷锋网注:现代Go贴纸的数量在不断变化,比如30年前,当时流行用5.5目贴纸贴白子)。

如果分析更大的数据集,能否得出一些关于围棋规则的有趣结论?(比如谁有拿黑或拿白的优势,标签应该高还是低)

Julian Schrittwieser:从我的经验和运行结果来看,7.5目贴两边均衡,黑子胜率略高(55%左右)。

问:能告诉我们第一手的选择吗?ALphaGo会以我们从未见过的方式开始吗?比如第一个男人在天元或者其他地方,更奇怪的地方?如果不是,这是一种“习惯”,还是AlphaGo有一种强烈的“信念”,认为星位、小眼睛、三三个是更好的选择?

大卫_西尔弗:在训练的时候,我们看到ALphaGo尝试了不同的启动方式——甚至在训练开始的时候,一个个都有第一批人在!

即使在训练后期,我们仍然可以看到四六个超高进球的开始,但是我们很快就回到了小眼睛的正常开始。

问:作为AlphaGo的忠实粉丝,我脑子里一直有一个问题:AlphaGo能造出多少职业选手?从论文中我们知道AlphaGo可以放弃游戏,我也知道AlphaGo不能放弃柯洁的两个儿子,但是我想你一定很好奇,你做过内测吗?

大卫·西尔弗:我们没有放弃和人类玩家下棋。当然,我们在测试不同版本的时候玩过子游戏,在AlphaGo Master >: AlphaGo Lee >上;ALphaGo Fan三个版本中,后一个版本可以让三子打败前一个版本。但是由于AlphaGo是自我训练的,特别擅长击败其较弱的前一个版本,所以我们不认为这些训练方法可以扩展到让位于人类玩家。

问:有没有想过用生成对抗网(GAN)?

大卫·银:从某种意义上说,自我发挥就是对抗的过程。结果的每一次迭代都在试图寻找上一个版本的“逆向策略”。

谣言终结者

问:听说AlphaGo在开发初期被引导进行特定方向的训练,以解决游戏中的弱点。现在它的能力已经超越了人类。需要另一种机制进一步突破吗?你做过什么工作?

David_Silver:其实我们从来没有指导过AlphaGo解决具体的弱点。我们一直专注于基本的机器学习算法,让AlphaGo学会修复自己的弱点。

当然,你不可能做到100%的完美,所以总会有缺点。在实践中,我们需要正确的方法来确保训练不会陷入局部最优的陷阱,但我们从来没有使用过人工提升。

关于深度思维公司

问:我有几个问题:在DeepMind工作是什么感觉?AlphaGo团队成员有哪些?能否介绍一下AlphaGo团队的工作分配?下一个大挑战是什么?

大卫·西尔弗:在DeepMind工作的感觉很棒:)-这不是招聘广告,但我觉得每天在这里做自己喜欢的事情是如此幸运。有很多(太多了忙不过来!:))酷项目参加。

我们很幸运有很多大牛在AlphaGo工作。您可以通过查看相应的作者列表获得更详细的信息。

问:你认为本科生在人工智能领域能成功吗?

朱利安·施瑞特维斯:当然。我只有计算机专业的学士学位,这个领域变化很快。我认为你可以通过阅读最新的论文和实验来自学。另外,去做过机器学习项目的公司实习很有帮助。

关于算法和其他项目的扩展

问:哈萨比斯今年3月在剑桥的一次演讲中说,AlphaGo项目未来的目标之一是解释神经网络。我的问题是:ALphaGo在神经网络的结构上有什么进步,还是说神经网络对AlphaGo来说还是一个神秘的黑匣子?

大卫·西尔弗:不仅仅是ALphaGo,可解释性在我们所有的项目中都是一个非常有趣的话题。Deepmind中有许多团队以不同的方式探索我们的系统。最近有团队发表了一篇基于认知心理学技术的破解匹配网络中发生的事情的尝试,效果很好!

问:很高兴看到AlphaGo Zero的好成绩。我们的一篇NIPS论文也提到了深度学习和搜索树的类似效率,所以我对较长训练过程中的行为特别感兴趣。

在AlphaGo的训练过程中,蒙特卡洛树搜索创建学习目标的贪婪算法、策略网络的贪婪算法和价值函数变化的贪婪算法在训练过程中的相对表现如何?这种自学游戏的方法可以应用到最近的星际争霸2 API吗?

大卫·西尔弗:谢谢你介绍你的论文!我不敢相信这篇论文是在我们4月7日提交的时候发表的。其实和我们学习算法的策略成分很像(虽然我们也有价值成分)。你可以参考我们的方法和强化学习中的讨论,你很高兴看到其他游戏中也使用了类似的方法。

问:为什么早期版本的AlphaGo不尝试自己玩?或者说,AlphaGo之前也尝试过玩自我游戏,但是效果不好?

很好奇这个领域的发展和进步。和今天相比,两年前设计一款带自我训练的AlphaGo的瓶颈是什么?我们今天看到的“机器学习直觉”经历了怎样的系统迭代过程?

David_Silver:创建自主学习体系一直是加强学习的开放性问题。我们最初的尝试包括很多你能找到的类似算法,都是相当不稳定的。我们做了很多尝试,最后AlphaGo Zero算法是最有效的,似乎解决了这个具体问题。

问:你认为机器人什么时候能有效解决现实世界中的身高和体型问题(比如学习如何抓取任何形状、大小和位置的垃圾)?战略梯度法是实现这个目标的关键点吗?

Julian Schrittwieser:这主要是因为价值/政策网络上的双重提升,包括更好的培训和更好的架构。不同网络架构的比较请参见图4。

问:据说柯洁打ALphaGo大师的功耗只有李世石打AlphaGo李的十分之一。你做过什么样的优化?

Julian Schrittwieser:这主要是因为价值/政策网络上的双重提升,包括更好的培训和更好的架构。不同网络架构的比较请参见图4。(雷锋。com Press:你确定不是文案最后一个问题的答案?)

问:在强化学习中使用或模拟Agent的长期记忆似乎是一个很大的障碍。展望未来,你认为我们能以新的思维方式解决这个问题吗?还是要等我们的技术实现超级网络?

朱利安·施里特维瑟:是的,长期记忆可能是一个重要因素。比如星际争霸游戏,你可能做了上千次动作,但还是要记住你派出的斥候。

我觉得现在有令人兴奋的组件(神经图灵机!),但我觉得我们在这方面还是有很大的提升空。

大卫,我看过你的演讲视频。你提到强化学习可以用于金融交易。有没有现实世界的例子?你会如何处理黑天鹅事件(一件你从未遇到过的事情)?

David_Silver:已发表的关于为现实世界增强学习金融算法的论文非常少,但是有一些经典的论文值得一看,比如2006年Nevmyvaka和Kearns写的,2001年Moody和Safell写的。

问:你和Facebook几乎同时学习围棋。你更快获得高手表现的优势是什么?

对于那些得不到AlphaGo那么多训练数据的领域,如何进行机器学习或者增强学习?

David _ Silver: Facebook更注重监督学习,我们选择更注重强化学习,因为我们相信AlphaGo最终会超越人类的知识。我们最近的结果实际上表明,监督学习可以令人惊讶,但强化学习绝对是远远超出人类水平的关键点。

1.《deepmind Deepmind AMA:你想了解的关于Deepmind的一切都在这里了!》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《deepmind Deepmind AMA:你想了解的关于Deepmind的一切都在这里了!》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/820087.html

上一篇

胖五 “胖五”有多强?这六大数字不得不提

下一篇

一笼小确幸 “一笼小确幸”创始人首度回应因食安问题上海闭店

知名童装企业 深度解析意大利两大知名百货公司童装经营策略

  • 知名童装企业 深度解析意大利两大知名百货公司童装经营策略
  • 知名童装企业 深度解析意大利两大知名百货公司童装经营策略
  • 知名童装企业 深度解析意大利两大知名百货公司童装经营策略

汤晖 京东健康与汤臣倍健达成深度战略合作,强强联合共创健康新时代

2019年11月15日,JD.COM健康与汤臣边建在北京JD.COM集团总部举行了2020年战略合作签约仪式,开启了双方全方位合作的新篇章。JD.COM集团副总裁、JD.COM健康首席执行官辛立军、汤臣边建药业股份有限公司董事长唐慧出席会议。在签约现场,图为JD.C...

aipark AIpark再中标石景山停车项目二期 深度助力区内路侧停车改革

近日,北京市石景山区道路停车电子收费前端设备二期建设项目发布中标公告,爱园凭借全球领先的高水平视频图像识别技术再次中标。这是爱园中标北京九大城区道路停车改革相关项目后,再次得到首都停车管理部门和广大市民的认可。值得一提的是,这也是爱园对朝阳区和海淀区停车项目二期的竞...

阿里巴巴私有化 市值4700亿美金的阿里巴巴8次融资历程、股权结构演变深度解析

  • 阿里巴巴私有化 市值4700亿美金的阿里巴巴8次融资历程、股权结构演变深度解析
  • 阿里巴巴私有化 市值4700亿美金的阿里巴巴8次融资历程、股权结构演变深度解析
  • 阿里巴巴私有化 市值4700亿美金的阿里巴巴8次融资历程、股权结构演变深度解析
中国十大卫浴 中国十大智能卫浴品牌?智能卫浴有哪些种类?

中国十大卫浴 中国十大智能卫浴品牌?智能卫浴有哪些种类?

智能卫浴目前比较流行,因为使用起来非常方便,所以很多人想知道国内十大智能卫浴品牌。只有了解品牌的卫浴品牌,才能让他们在使用时更加放心。同时要知道什么是智能卫浴,因为智能卫浴的种类很多,所以在购买之前要有一定的了解。  中国十大智能卫浴品牌? 1.九木jomoo(中国...

南京溧水地震 南京溧水地震2.8级 震源深度9千米

中国地震台网正式确定,02年3月8日08时11分,江苏省南京市溧水区发生2.8级地震,震源深度9公里。目前,南京和丽水电网保持了安全稳定运行,没有受到影响。南京供电公司立即启动应急预案,加强电网巡视和抢修准备。...

煞笔 汪涵不带脏字骂煞笔堪称经典(机智救场深度解读)