柯洁人机大战人机大战柯洁怎么就输了？

前向预警，前向高能预警，前向核能预警，文中可能有各种你听不懂但我并不是很懂的专业术语。

可以打开电脑看百度。

昨天柯洁和阿尔法狗完成了第一局。不，他们完成了第一场比赛。最终结果以阿尔法狗胜出告终，柯洁也在下期贡献了不少表情包。另外，这个人叫柯洁，既不是何洁，也不是米歇尔，更不是柯南。

根据Deepmind团队的预测，和柯洁交手的AlphaGo Master比去年和李世石交手的AlphaGo Lee强三倍。

三个孩子是什么概念？引用柯洁的话，一个武林高手和他对决，对手让你先捅他三刀。有网友嘲讽这意味着柯洁比李世石强三个孩子。

李世石在厕所里哭晕了，躺着被枪杀

不管是李世石还是柯洁，其实在下一期，他们要面对的是帮助阿尔法狗倒下的黄士杰，也就是阿尔法狗背后的驱动力。

阿尔法狗为什么不能做成机器人，偶尔可以下棋和对手互动？是不是看起来更“正常”？对于一台机器来说，这一点都不简单。

我们都知道围棋棋盘是什么样子的。板子上有19条直线，把板子分成361个交点。棋子走在路口。在这么大的空空间里，人类需要耗费大量的脑力和体力才能找到最好的安身之处。但是AI不需要。他们能加热的只有CPU。人工智能只需要用庞大的数据做出来，就可以利用其快速的计算速度来优化搜索。

这里我们将介绍三个概念，即深度学习、强化学习和蒙特卡罗树搜索(MCTS)。

深度学习主要用于学习和构建两个模型网络。一种是评价棋盘目前的状态。也就是说，给当前棋盘状态打一个分，评估获胜的期望值，就是ValueNetwork。输入是棋盘19x19各点的状态，有无子，输出是获胜的期望值。

如果你够聪明，你可以找个数学家，在黑板上写个公式表示出来。而人工智能还没有被教会“随机响应”和“积分”的功能，所以只能用多层神经网络来近似表达这种高级功能。

第二，根据棋盘目前的状态，决定下一颗棋子应该怎么走才有最大的获胜概率，这就是AlphaGo的PolicyNetwork。也就是说，给定19x19的棋盘状态，这是所有空中的最佳选择，将具有最大的胜率。

同样，我们也可以用一个函数来描述，比如输入是当前的棋盘状态，输出是各个位置的期望值和它的期望胜率。但是这个函数没有高级的数学公式，所以最后求助于多层神经网络。

那么人工智能扮演的所谓深度学习网络是怎样的呢？这里我们要提出另一个术语，叫做随机梯度下降(SGD)。

Go没有求解公式，或者相对简单的求解公式，所以人工智能只能求助于迭代和随机梯度下降迭代。简单解释一下，就是摸着石头过河。人工智能努力工作，直到得到满意的结果。这个过程循环往复，但本身就很简单。按照我们的话说，人工智能用的是最“蠢”的方法。如果我们做选择题的时候发现这个公式里有四个选项，那么最傻的办法就是把这四个选项都拿进去，再数一遍。这就是人工智能风格的方法。

当然，基础数据已经被前辈输入到了Alpha Dog的服务器中，Alpha Dog不可能用庞大的数据量进行现场计算。这样一来，阿尔法狗在下棋的时候就可以大大减少搜索空的次数，把不好的都消灭掉。

那么，如果阿尔法狗认为不好的地方不一定不好呢？这是强化学习的领域，也就是自我发挥。就拿武侠小说的套路来说，这叫右撇子交流。说白了就是两只阿尔法狗对弈，通过深度学习的网络模式来记录，从而提高前两种模式的网络效果。在强化学习算法中，需要进行大量迭代计算才能得到最优期望，即达到收敛。

到这个时候，阿尔法狗就可以算是普通玩家了。但是在很多选择都没有选择的情况下，阿尔法狗如果不能保证模型预测的每一步都是最好的，该怎么办？

最后一个名词是蒙特卡洛树搜索。这是一个通过随机推演博弈逐步构建不对称搜索树的过程。可以分为四个步骤。选择、扩展、模拟和反向传播。

简单来说，一个一个尝试，简单粗暴。摘麦穗的故事大家都知道吧？从田地的开始到结束，挑出最大的麦穗。有的版本摘苹果，但都差不多。蒙特卡洛树搜索就是从一开始就拿出一堆麦穗或者一个苹果，一个个对比到底。那你一定要挑很多遍，不然你也不知道你挑的是不是最大的。只是人力有限。你不知道你挑的最后一个是不是最大的，但你可以保证绝对是比较大的。

听着，你累了吗？

但是阿尔法狗就是这么“不灵活”，或者说无法“绕过”。人类教会了阿尔法狗最愚蠢的方法。要不是它的计算速度快，数据量大，也打不过今天的柯洁。

这样的阿尔法狗也许能打败柯洁，也许能赢得星际种族，但注定写E = MC2；这个公式。人类擅长学习迁移，但人工智能还做不到这一点。

赛后，有网友发现王思聪竟然跑到柯洁的微博上嘲讽道:“哎，李和alphago倒下了，你的嚣张气焰去哪了？”就这么一句话。

总的来说，王思聪的很多观点都会得到网友的大力支持。但这次情况有点不同。王思聪被网友激怒。