选自中等
参与:极客.艾,刘晓坤
通过一个简单的案例,说明了最大似然估计、最大后验估计和贝叶斯参数估计之间的联系和区别。
假设你有一枚硬币。你扔了三次,有三个头。下一次抛硬币面朝上的概率是多少?这是一个从数据中估计参数的基本机器学习问题。在这种情况下,我们需要从数据d中估计面朝h的概率。
极大似然估计
一种方法是寻找能最大化观测数据的似然函数(即P(D;h的参数h的值)。这里,我们用“;”意味着h是关于概率分布p的参数,这意味着参数h定义了分布p,但是分布p只显示了观测数据d的可能性有多大。
这是最常用的参数估计方法,称为“最大似然估计”。用这种方法,我们估计h=1.0。
但是直觉告诉我们,这是不可能的。对于大多数硬币来说,反面朝上的可能性还是存在的,所以我们通常希望得到h=0.5这样的结果。
先验和后验
这种直觉怎么用数学表达?我们可以定义一个观测数据和参数的联合概率:p(D,h) = p(D|h)p(h)。我们定义了一个先验分布p(h)来表达观察前h应该是什么值的直觉,以及给定参数h的条件概率p(D|h)。
如何利用现有数据d估计参数h?我们需要得到后验分布p(h|D),但目前只有分布P(D|h)和p(h)。这个时候,你需要贝叶斯公式的帮助!
贝叶斯公式:P(h|D)=P(D|h)*P(h)/P(D)
然而,这里的分母是一个问题:
一般来说,这个积分是不可能算出来的。对于这个抛硬币的例子,如果使用一个非常特殊的共轭先验分布,这个问题可以绕过。
最大后验估计
但实际上,在没有归一化常数P(D)的情况下,我们可以更巧妙的讨论p(h|D)。也就是说,归一化常数不改变分布的相对大小,我们不需要积分就可以找到模式:
这被称为最大后验估计。计算变量h精确值的方法有很多,比如共轭梯度下降法。
贝叶斯参数估计
利用最大后验估计,可以通过先验分布引入我们的直觉,忽略归一化积分,从而得到后验分布模式下H的点估计。
但是如果尝试用近似的方法积分呢?根据通常的独立性和相同分布的假设,我们可以利用这样一个事实,即当给定参数h时,未来可能出现的数据样本值x与观测值d无关。
计算P(x|h)不是后验概率p(h|D)模式对应的参数h的单一值,而是一种更“严格”的方法,允许我们考虑h的所有可能的后验值,这种方法称为贝叶斯参数估计。
请注意,关于概率分布有两个重要任务:
推断:给定已知参数的联合分布,通过其它变量的边缘概率和条件概率估计一个变量子集上的概率分布。参数估计:从数据中估计某个概率分布的未知参数贝叶斯参数估计将这两项任务视为“同一枚硬币的两面”:
估计在一组变量上定义的概率分布的参数是为了推断由原始变量和参数组成的元分布。
当然,事实上,要做到这一点,需要计算困难的积分,我们必须使用马尔可夫链蒙特卡罗算法或变分推理等方法来近似它。
原文链接:https://medium.com/@·阿马苏卡瓦/最大似然-最大先验-贝叶斯参数估计-d99a23a0519f
这篇文章是为机器的核心编写的。请联系该公众号进行授权。
1.《贝叶斯估计 入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《贝叶斯估计 入门 | 什么是最大似然估计、最大后验估计以及贝叶斯参数估计》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/850576.html