从任意点到超平面的距离
感知器符号(w.x+b)学习的损失函数定义为(重点):
损失函数
特定样本的损失函数在误分类时是w和b的线性函数,正确分类时是0,所以损失函数是w和b的连续可导函数。
重点:感知器的学习策略是在假设空中选择使感知器损失函数最小的模型参数w和b,即感知器模型。
2.将感知器的学习算法转化为求解感知器损失函数的优化问题,优化方法为随机梯度下降法。
学习算法:
输入:训练数据集t,学习率α
输出:w,b;传感器型号f(x)=符号(w.x+b)
(1)选择初始值w0和B0
(2)在训练集中选择数据(xi,易)
(3) if yi (w. xi+b)
(4)转到(2)直到训练集中没有错误分类的点(重复的错误分类的点总是被更新)
任意选择一个超平面w0,b0w0,b0,然后用梯度下降法最小化目标函数
梯度
随机选择一个错误分类点(xi,彝族)(xi,彝族),更新w和b;
其中η是步长,也称为学习率。这样我们就可以期望损失函数L(w,b)不断减小,直到0。
该学习算法直观地解释了当一个实例类被误分类时,即位于分离超平面的错误一侧时,调整w和b的值,使分离超平面向分类点一侧移动,从而减小误分类点与超平面的距离,直到超平面穿过误分类点并被正确分类。
在开始的时候,随机的开始两条同类型的线,也就是法向量,做垂直线得到初始的分类平面(线)
证明了当数据可线性分割时,简单感知器算法收敛。(这是根据林先生的定义给出的。我觉得很清楚。详见《统计学习方法》第二章。)
而且量向量夹角的余弦值不会大于1,说明t的值是有限的。T=1,即向量内积为1,两个向量重合。因此,我们证明了简单的PLA算法是可以收敛的。
数据是线性不可分的:
Pocket算法当数据线性不可分(有噪声)时,简单的PLA算法显然无法收敛。我们要讨论的是如何得到近似的结果。我们希望尽可能地获得正确的结果,即:
找wg是NP难问题!只能找到近似解。算法如下:
口袋算法
与简单PLA的区别:迭代有限(提前设置);随机搜索错误数据(而不是循环遍历);只有新获得的w比之前获得的最好的wg更好的时候,才会更新wg(这里的好是指错误更少)。与以前的工作组相比,在计算w后,应该比较错误率来决定是否更新工作组,因此pocket算法的效率不如简单的PLA方法。
参考:
统计学习方法第二章
“机器学习的基石”,台湾省国立大学,8,9
扩展阅读:
院特殊福利ID: Okweiwu
关注AI研究会后,回复[1]获取
【千G神经网络/AI/大数据,教程,论文!】
百度云盘地址!
开发者专场|英伟达深度学习学院现场授课
英伟达DLI高级工程师现场指导,理论联系实际,深入学习!
1.《perceptron 感知机(Perceptron)是怎么实现“知错能改”的?》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《perceptron 感知机(Perceptron)是怎么实现“知错能改”的?》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/jiaoyu/1455786.html