AI研究会出版社:这篇文章的原作者佘明丸,最初发表在他的Zhihu专栏《Python与机器学习》,还有雷锋。com AI研究会已获授权。
感知机是一个比较简单的模型,但是它既可以发展成支持向量机,也可以发展成神经网络,所以它也有一定的地位
为方便起见,我们统一讨论了二元分类问题,并将两类样本分别称为正样本和负样本
感觉功能是做什么的?
感知可以分离线性可分的数据集。什么是线性可分?在二维平面上,线性可分性是指正负样本可以一条线分开,在三维空上,线性可分性是指正负样本可以一个平面分开。可以用两张图直观感受线性可分性和线性不可分性的概念:
例如,上面给出的两个二维数据集的凸包如下图所示:
注意到:
Yi=1,
Yi=-1、
所以
这与等式1相矛盾。
2)凸包不相交→线性可分:严谨的证明需要一些奇怪的东西,这里我们只提供一个不严谨的视觉解释:取一个“最接近”正样本点集凸包的点x*,假设负样本点集。通过x*画一个超平面,使π垂直于x*和x*的连线。根据凸包的几何性质,此时除外),正样本点集都分到了π的同侧,x*是与π“最接近”的点,只需要稍微移动π到负样本点集就行。
然后,前一篇文章遗留下来的感知器模型收敛性的证明。我们知道对应于感知器的超平面是:
如果你扩展它,它就是
所以我们可以重写为
在…之中
如果数据集是线性可分的,就意味着它存在,使它对任何人和所有人都可用;注意尺度不影响超平面,所以我们不妨假设一下。同时,由于数据集D中的样本有限,也就意味着总有。
现在我们初始化为0 vector,开始感知器模型的训练:
1)如果所有样品都已正确分类,则它们已通过认证。
2)否则,获取错误分类的样本并更新参数:。很容易知道:
和
注意是误分的,yi只能取正负1,所以,,因而可以从公式2推导出来:
因此
即训练步数k有一个上界,也就是收敛。而且没有学习率η,说明对感知器模型设置多少学习率并不重要。
最后简单介绍一个很重要的概念:拉格朗日对偶。我们前三节介绍的感知器算法,其实可以称之为“感知器的原始算法”;利用拉格朗日对偶,可以得到感知器算法的对偶形式。鉴于拉格朗日对偶的原始形式过于纯粹的数学,我打算用具体的算法来介绍,但不描述它的原始形式。感兴趣的观众可以在这里参考。
在约束优化问题中,为了便于求解,我们经常使用它将原问题转化为更好的对偶问题。对于具体问题,原算法的对偶形式往往有一些共性。例如,对于后面介绍的感知器和支持向量机,它们的对偶算法会将模型的参数表示为样本点的某种线性组合,并将问题转化为求解线性组合中的每个系数。
感知器算法的原始形式虽然很简单,但是通过转化为对偶形式,我们可以清晰地感受到转化过程,有助于理解和记忆后面介绍的支持向量机的复杂对偶形式。
考虑到原始算法的核心步骤是:
其中,e为当前误分类的样本点集合;可以看出,参数的更新完全基于样本点。考虑到我们要将参数w和b表示为样本点的线性组合,一个自然的想法是记录每个样本点在核心步骤中被使用了多少次,然后用这个数字来表示w和b,例如,如果样本点在上述核心步骤中被使用了ni次,那么就有:
如果进一步设置,有:
这就是感知器模型的对偶形式。需要指出的是,在对偶形式中,样本点中的X只以内积的形式出现;这是一个非常重要而又深刻的性质,利用它和后面要介绍的核技术,可以把很多算法从线性算法“升级”成非线性算法。
注意到在对偶形式的训练过程中,经常会重复使用大量样本点之间的内积,我们通常会提前计算样本点之间的内积,并存储在一个矩阵中;这个矩阵就是著名的Gram矩阵,它的数学定义是:
因此,如果在训练过程中使用相应的内积,只需要从Gram矩阵中提取,在大多数情况下可以大大提高效率。
扩展阅读:
院特殊福利ID: Okweiwu
关注AI研究会后,回复获取
百度云盘地址!
开发者专场|英伟达深度学习学院现场授课
英伟达DLI高级工程师现场指导,理论联系实际,深入学习!
课程链接:mooc.ai
1.《感知机 史上最详尽的感知机教程:从原理到实践》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《感知机 史上最详尽的感知机教程:从原理到实践》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guoji/1670882.html