新智能原AI WORLD 2018世界人工智能峰会

令人惊讶的是,在所有机器学习的流行语中,几乎听不到融合统计学、信息理论和自然哲学核心概念的短语。

另外,这并不是只有机器学习博士或专家才知道的晦涩难懂的术语,对于对探索感兴趣的人来说,具有准确易懂的意义,对于ML和数据科学工作者来说,具有实用价值。

该术语是最小描述长度(Minimum Description Length)。

剥茧,抽丝,看看这个术语有多有用。

贝叶斯和他的理论

让我们从托马斯贝叶斯(Thomas Bayes)开始。但是,他从未发表过统计推理的想法,但后来不会因为“贝叶斯定理”而腐败。

托马斯湾

那是18世纪后期,当时连一门叫“概率论”的数学科学都没有。知道概率论是因为亚伯拉罕德莫伊伯写的《机遇论》(doctrine of chances)书。

1763年,贝茨的着作《机会问题的解法》(AN ESSAY TOWARD SOLVING A PROBLEM In the DOCTRINE of OPPPORTUNITITIES)被送到英国皇家学会,但他的朋友理查德普莱斯

从那以后,统计科学的两派——贝叶斯学派和频率学派之间发生了很多争论。但是为了回到本文,让我们暂时忽略历史,集中讨论对贝叶斯推理机制的简单解释。大卫亚设,《现代艺术》)请看下面的公式。

这个公式告诉你,实际上,在看到数据/证据(可能性)后,更新你的信念(先验概率),并将更新后的信念程度赋予后验概率。你可以从信念开始,但所有的数据点都加强或削弱了这个信念,你会一直更新你的假设。约翰f肯尼迪。

听起来很简单直观吧?很好。

然而,我在这句话的最后一句中用了一个小计谋。你注意到了吗?我提到了“假设”这个词。

在统计推理的世界里,家庭是信念。这是对过程本质(我们永远无法观察到)的信念,位于随机变量的生成背后(可能有噪音,但可以观察或测量随机变量)。在统计学中,这被称为概率分布。但是在机器学习的背景下,它可以被认为是某种规则(或逻辑/程序),我们认为这些规则可以产生例子或训练数据,我们可以学习这个神秘过程的隐藏本质。

因此,让我们把贝叶斯定理——重新定义为其他符号,使用与数据科学相关的符号。(约翰f肯尼迪,美国电视剧)我们用D表示数据,用H表示假设。也就是说,我们想用贝叶斯定理的公式来确定数据来自什么假设,给定的数据。我们重写了定理。

现在,一般来说,我们有很大的(通常是无限的)假设空间。也就是说,有很多假设可供选择。贝叶斯推理的本质是我们想测试数据,以最大限度地提高最有可能产生观察数据的假设的概率。我们通常要检查P(h|D)的argmax。也就是说,我想知道哪个H最有可能被观察到。为此,可以将此项目放在分母P(D)中。因为不依赖假设。此方案是最大后验概率估计(maximum a posteriori,MAP)。

现在,应用以下数学技术:

最大化的工作方式与原始函数类似,即应用日志不会更改最大化问题。

乘积的日志是每个日志的总和

一个数量的最大化等于负数量的最小化

fa99?from=article.detail&_iz=31825&index=4" width="405" height="133"/>

那些负对数为2的术语看起来很熟悉是不是......来自信息论(Information Theory)!

让我们进入克劳德·香农(Claude Shannon)的世界吧!

香农和信息熵

如果要描述克劳德·香农的天才和奇特的一生,长篇大论也说不完。香农几乎是单枪匹马地奠定了信息论的基础,引领我们进入了现代高速通信和信息交流的时代。

香农在MIT电子工程系完成的硕士论文被誉为20世纪最重要的硕士论文:在这篇论文中,22岁的香农展示了如何使用继电器和开关的电子电路实现19世纪数学家乔治布尔(George Boole)的逻辑代数。数字计算机设计的最基本的特征——将“真”和“假”、“0”和“1”表示为打开或关闭的开关,以及使用电子逻辑门来做决策和执行算术——可以追溯到香农论文中的见解。

但这还不是他最伟大的成就。

1941年,香农去了贝尔实验室,在那里他从事战争事务,包括密码学。他还研究信息和通信背后的原始理论。1948年,贝尔实验室研究期刊发表了他的研究,也就是划时代的题为“通信的一个数学理论”论文。

香农将信息源产生的信息量(例如,信息中的信息量)通过一个类似于物理学中热力学熵的公式得到。用最基本的术语来说,香农的信息熵就是编码信息所需的二进制数字的数量。对于概率为p的信息或事件,它的最特殊(即最紧凑)编码将需要-log2(p)比特。

而这正是在贝叶斯定理中的最大后验表达式中出现的那些术语的本质!

因此,我们可以说,在贝叶斯推理的世界中,最可能的假设取决于两个术语,它们引起长度感(sense of Length),而不是最小长度。

那么长度的概念是什么呢?

Length (h): 奥卡姆剃刀

奥卡姆的威廉(William of Ockham,约1287-1347)是一位英国圣方济会修士和神学家,也是一位有影响力的中世纪哲学家。他作为一个伟大的逻辑学家而享有盛名,名声来自他的被称为奥卡姆剃刀的格言。剃刀一词指的是通过“剔除”不必要的假设或分割两个相似的结论来区分两个假设。

奥卡姆剃刀的原文是“如无必要勿增实体”。用统计学的话说,我们必须努力用最简单的假设来解释所有数据。

其他杰出人物响应了类似的原则。

牛顿说:“解释自然界的一切,应该追求使用最少的原理。”

罗素说:“只要有可能,用已知实体的结构去替代未知实体的推论。”

人们总是喜欢更短的假设。

那么我们需要一个关于假设的长度的例子吗?

下面哪个决策树的长度更小?A还是B?

即使没有一个对假设的“长度”的精确定义,我相信你肯定会认为左边的树(A)看起来更小或更短。当然,你是对的。因此,更短的假设就是,它要么自由参数更少,要么决策边界更不复杂,或者这些属性的某种组合可以表示它的简洁性。

那么Length(D | h)是什么?

给定假设是数据的长度。这是什么意思?

直观地说,它与假设的正确性或表示能力有关。给定一个假设,它支配着数据的“推断”能力。如果假设很好地生成了数据,并且我们可以无错误地测量数据,那么我们就根本不需要数据。

想想牛顿的运动定律。

牛顿运动定律第一次出现在《自然哲学的数学原理》上时,它们并没有任何严格的数学证明。它们不是定理。它们很像基于对自然物体运动的观察而做出的假设。但是它们对数据的描述非常好。因此它们就变成了物理定律。

这就是为什么你不需要记住所有可能的加速度数字,你只需要相信一个简洁的假设,即F=ma,并相信所有你需要的数字都可以在必要时从这个假设中计算出来。它使得Length(D | h) 非常小。

但是如果数据与假设有很大的偏差,那么你需要对这些偏差是什么,它们可能的解释是什么等进行详细描述。

因此,Length(D | h)简洁地表达了“数据与给定假设的匹配程度”这个概念。

实质上,它是错误分类(misclassication)或错误率( error rate)的概念。对于一个完美的假设,它是很短的,在极限情况下它为零。对于一个不能完美匹配数据的假设,它往往很长。

而且,存在着权衡。

如果你用奥卡姆剃刀刮掉你的假设,你很可能会得到一个简单的模型,一个无法获得所有数据的模型。因此,你必须提供更多的数据以获得更好的一致性。另一方面,如果你创建了一个复杂的(长的)假设,你可能可以很好地处理你的训练数据,但这实际上可能不是正确的假设,因为它违背了MAP 原则,即假设熵是小的。

将所有这些结合起来

因此,贝叶斯推理告诉我们,最好的假设就是最小化两个项之和:假设的长度和错误率。

这句话几乎涵盖了所有(有监督)机器学习。

想想它的结果:

  • 线性模型的模型复杂度——选择多项式的程度,如何减少平方和残差。

  • 神经网络架构的选择——如何不公开训练数据,达到良好的验证精度,并且减少分类错误。

  • 支持向量机正则化和kernel选择——软边界与硬边界之间的平衡,即用决策边界非线性来平衡精度

我们真正得出的结论是什么?

我们从最小描述长度(MDL)原理的分析中得出什么结论?

这是否一劳永逸地证明了短的假设就是最好的?

没有。

MDL表明,如果选择假设的表示(representation)使得h的大小为-log2 P(h),并且如果异常(错误)的表示被选择,那么给定h的D的编码长度等于-log2 P(D | h),然后MDL原则产生MAP假设。

然而,为了表明我们有这样一个表示,我们必须知道所有先验概率P(h),以及P(D | h)。没有理由相信MDL假设相对于假设和错误/错误分类的任意编码应该是首选。

对于实际的机器学习,人类设计者有时可能更容易指定一种表示来获取关于假设的相对概率的知识,而不是完全指定每个假设的概率。

这就是知识表示和领域专业知识变得无比重要的地方。它使(通常)无限大的假设空间变小,并引导我们走向一组高度可能的假设,我们可以对其进行最优编码,并努力找到其中的一组MAP假设。

总结和思考

一个奇妙的事实是,如此简单的一套数学操作就能在概率论的基本特征之上产生对监督机器学习的基本限制和目标的如此深刻而简洁的描述。对这些问题的简明阐述,读者可以参考来自CMU的一篇博士论文《机器学习为何有效》(Why Machine Learning Works)。

原文链接:

Why Machine Learning Works:

新智元AI WORLD 2018世界人工智能峰会

倒计时 8 天

门票已开售!

新智元将于9月20日在北京国家会议中心举办AI WORLD 2018世界人工智能峰会,邀请机器学习教父、CMU教授 Tom Mitchell,迈克思·泰格马克,周志华,陶大程,陈怡然等AI领袖一起关注机器智能与人类命运。

大会官网:

  • 活动行购票链接:

  • 活动行购票二维码:


1.《【剃刀党名言】当贝叶斯、奥卡姆、香农一起定义机器学习的时候。》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【剃刀党名言】当贝叶斯、奥卡姆、香农一起定义机器学习的时候。》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/2791621.html