当前位置:首页 > 旅游指南

监督学习 如何通俗易懂地解释无监督学习

背景知识

无监督学习是机器学习的一种,属于人工智能领域。要理解无监督,我们先来讨论一下什么是人工智能。

所谓人工智能就是“人工”+“智能”,即人为创造出来的模拟人类智能的载体。那么什么是人类智能呢?以一台机器和一个婴儿为例,给婴儿看一张猫的图片。看到图b的时候,宝宝总是会开心的挥动手臂,认出它也是一只猫。如果你把图片输入非人工智能机器,告诉机器是猫,你输入B机器可能就认不出来了!

图1两只猫的照片

这与智商无关,而是纯人类智能的一种体现。那么,如果机器也有根据真实猫的推演来识别卡通猫的能力,我们说这个机器被赋予了“智慧”,也就是说它有人工智能。

如上例所述,人工智能通常具有一定的演绎能力,所以不得不说是机器学习。如果把孩子识别猫的过程理解为一种学习,那么机器识别猫的过程也可以描述为学习——机器学习。用一句成语总结,学习就是举一反三。你可以通过a认出b,这是最简单的学习。学习需要模拟人的思维模式,但是人的大脑极其复杂,只能抽象成一些算法,比如神经网络、贝叶斯、决策树、聚类算法等。从A中识别B是一种比较初级的学习方法,处于幼儿阶段。小学的时候,老师会给我们看很多动物的图片。老师告诉我们,老虎、豹子、狮子和其他看起来像猫的动物有一个共同的名字——猫。

图2猫

这个学习过程属于更高的层次,叫做“深度学习”。深度学习的概念源于人工神经网络的研究。多隐层多层感知器是一种深度学习结构。深度学习结合低层特征形成更抽象的高层表示属性类别或特征,从而发现数据的分布式特征表示。比如猫一般都有条纹、斑点或者玫瑰图案,头前有大眼睛,舌头粗糙,胡子等等。在了解了猫之后,小学生看到另一张动物的图片,比如猞猁(发音she li),虽然不知道动物的实际名字,但是可以从前面的特征中学习,得出毛茸茸的家伙一定是猫的结论。

图3 Lynx

分类

了解了机器学习的概念之后,我们再来看机器学习的分类。机器学习包括监督学习、强化学习和非监督学习,如下图所示。

图4机器学习分类

a)监督学习是最常见的机器学习,它的训练数据是标注的,训练目标是给新数据(测试数据)一个正确的标注。例如,要将电子邮件分类为垃圾邮件,我们首先训练一些电子邮件及其标签(垃圾邮件或非垃圾邮件),学习模型不断捕捉这些电子邮件与标签之间的关系,以进行自我调整和改进。然后我们给出一些没有标签的新邮件,让模型将新邮件归类为垃圾邮件。

b)无监督学习常用于数据挖掘,用于在大量未标记的数据中寻找某种东西。它的训练数据是无标记的,其训练目标是对观测值进行分类或区分。例如,无监督学习应该能够仅根据所有“猫”图片的特征,从大量的各种图片中区分出“猫”图片,而不需要给出任何额外的提示。

c)强化学习通常用于机器人学(如机器人狗),接收机器人的当前状态,算法的目标是训练机器做出各种具体行为。工作流程是:把机器放在特定的环境中,机器可以在这个环境中不断地自我训练,环境会给出正反馈或负反馈。机器会从以前的行动经验中改进,最终找到最佳的知识内容,帮助它做出最有效的行为决策。

这里我们重点关注无监督算法。主要有三种无监督算法:聚类、离散点检测和降维。我们主要讲聚类。聚类是将观测值聚类成一组,每组包含一个或几个特征。可以想象,在没有监督的情况下,正确的特征提取是最关键的一步。在猫识别中,我们尝试提取猫的特征:皮毛、四肢、耳朵、眼睛、胡须、牙齿、舌头等。猫或猫科动物可以通过聚集具有相同特征的动物来分组。但是这个时候,我们就不知道这些毛茸茸的东西是什么了。我们只知道这些东西属于一个阶级,兔子不在这个阶级(耳朵不适合),飞机不在这个阶级(翅膀)。特征有效性直接决定算法有效性。如果我们按体重聚类,却忽略了身体特征,恐怕很难区分兔子和猫。

DataVisor的反欺诈工作是抓坏人,包括恶意注册、黑客攻击、贷款诈骗、信用刷等各种欺诈行为。正如您已经猜到的那样,DataVisor的优势是特征计算、精确的数据清理、字段提取、字段分割和字段组合。通过聚类特征,可以有效地捕获欺诈团伙,并及时防止欺诈。

估价

算法好坏,只适合。那么,如何评价算法的适合度呢?让我们先来看几个概念:

Tp:真阳性阳性样本被识别为阳性样本(正确捕获)

TN:真阴性阴性阴性样本被认定为阴性样本(不应该抓,也没有抓)

Fn:假阳性样本被识别为阴性样本(遗漏)

假阴性样本被识别为阳性样本(错误捕获)

我们以猫识别为例。我们假设机器通过学习具有一定的识别能力。然后,我们输入4张图片,机器的判断如下:

图5机器的判断结果

常用的评价指标有三个:查准率、查全率和准确率,其中:

Precision = TP/(TP+FP),表示我们抓对的人的比例;

回忆= TP/ (TP+FN),表示我们抓到的坏人占所有坏人的比例;

准确率= (TP+TN)/全部,表示正确识别的比例(好人被识别为好人,坏人被识别为坏人)。

三个指标越高,算法的适应性越好。

在互联网行业,团伙诈骗非常普遍,无监督学习可以有效抓捕诈骗团伙。将DataVisor的无监督学习应用到一些欺诈场景中,准确率可高达99%。这个指标直接证明了无监督学习在互联网行业的适用性和有效性。

1.《监督学习 如何通俗易懂地解释无监督学习》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《监督学习 如何通俗易懂地解释无监督学习》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/junshi/650257.html

上一篇

曲池在左手还是右手 手藏“特效穴”,每天按一按,宁心安神,还能告别便秘、腹痛

下一篇

湿剃门 高圆圆私密视频流出 娱乐圈惊现“湿剃门”

交通银行机器人 浙江交行迎来“最萌银行大堂经理” 机器人娇娇

近日,刚刚开业的交通银行杭州江东支行的业务领域迎来了一位专门的大堂经理。这个特别的大堂经理大约有1米高。当他心情好的时候,他的大眼睛会变成心脏。他会唱歌跳舞,背古诗讲笑话。他被亲切地称为他的兄弟姐...

防爆机器人布里茨 LOL皮肤鉴赏第十二期,蒸汽机器人布里茨

  • 防爆机器人布里茨 LOL皮肤鉴赏第十二期,蒸汽机器人布里茨
  • 防爆机器人布里茨 LOL皮肤鉴赏第十二期,蒸汽机器人布里茨
  • 防爆机器人布里茨 LOL皮肤鉴赏第十二期,蒸汽机器人布里茨
龙舞茶 龙舞茶的品质特征

龙舞茶 龙舞茶的品质特征

舞龙茶是一种味道香甜、醇厚的茶。对于不太了解的人来说,舞龙茶的品质特点是什么? 看起来像麻花,弦紧,色绿发白,嫩香,汤绿,清亮,味甘鲜,叶嫩匀。 1986年获吉安创新名茶证书,1987年在江...

小暑开鹏翼 小暑开鹏翼——福建住户调查样本轮换培训班侧记

一个小夏开一个亮的翅膀——福建省入户调查样本轮换培训班侧记懒“同志们,新一轮入户调查样本轮换工作进入攻坚阶段,时间不等人。各级调查小组一定要树立大局意识和责任感,增强荣誉感和使命感,齐心协力,以更...

寮国沉香 老挝沉香(寮国沉香)的产地及特征

老挝(古称老),是东南亚沉香最好的产地——老香。在老挝从事沉香发掘的越南人也不少,他们的造假手段也是可以接受的。注意,说越南沉香基本就是老挝。 一、老沉香的香味(老沉香)老沉香和越南沉香都有...

机器人社区 打造机器人智能社区

机器人社区 打造机器人智能社区

7月8日,山东创业房地产开发有限公司召开“机器人智能社区建设新闻发布会”。会上,Freiwei公司与Venture Real Estate之间举行了机器人交接仪式,4000户家庭将陆续迎来新...

苏树林妻子 苏树林:周永康令计划等人带有“全家腐”特征

家风是干部必修课(纵横思考)苏严格的修养是践行“三严三实”的重要组成部分。要做到严格的修养,除了党纪国法的硬性约束,还得靠家规民约的潜移默化。从这个意义上说,家风是领导干部严格修养的必修课。习近平...

学算命的人很危险 什么特征的人适合学算命?

命理学家肖涛/文 经常有网友问“我适合学命理吗?”我能用这个技术养家吗?我能在这个领域成功吗?其实命理预测也是一个行业。要想成为这个行业的佼佼者,必须具备以下条件: 1、要有浓厚的兴趣。 古...