当前位置:首页 > 体育

召回率 欺诈预测机器学习模型设计:准确率和召回率

数据挖掘微信官方账号:datadw的介绍与实践

该网站建立了一种基于允许任何人长期或短期出租闲置房屋的商业模式,必须解决租户或房东的欺诈风险。Irbnb信任和安全团队通过建立模型预测欺诈。本文介绍了其设计思想。假设模型是预测一些虚拟角色是否是“反派”。基本步骤是:建立模型期望、建立训练集和测试集、学习特性和评估模型性能。其中,特征变换倾向于采用条件概率编码(CP-coding),评价指标为查准率(Precision)和召回率(Recover),通常偏向于高召回率。

在Airbnb网站上,我们专注于创造一个人可以属于任何地方的地方。归属感的一部分来源于我们用户之间的信任,我们意识到他们的安全是我们最关心的。

虽然我们的大多数社区是由友好可靠的房东和房客组成的,但仍有一小部分用户试图从我们的网站中获利。这些都是非常罕见的,然而,信任和安全团队诞生了。

信任和安全团队主要是为了解决我们平台上可能发生的任何欺诈。我们的主要目的是保护我们的用户和公司免受不同类型的风险。比如退款风险——这是大多数电商企业都熟悉的风险问题。为了减少这种欺诈,信任和安全团队的数据科学家建立了不同类型的机器学习模型,以帮助识别不同类型的风险。有关我们模型背后的架构的更多信息,请参考以前的文章。

http://nerds . Airbnb . com/architecting-machine-learning-system-risk/

本文简要概述了建立机器学习模型的思维过程。当然,每个模型都是不同的,但我希望它能让读者对我们如何使用数据来帮助保护我们的用户,以及如何改进机器学习中模型的不同处理方法有一个新的理解。在这篇文章中,我们假设我们想建立一个模型来预测一些虚构的角色是否是恶棍。

你想预测什么?

建模的基本问题是知道你想用这个模型预测什么。我知道这听起来很愚蠢,但通常,这个问题会导致其他更深层次的问题。

即使是看似简单的角色分类模型,随着我们逐渐深入思考,也可以提出很多更深层次的问题。比如,我们要如何给这个模型打分:只是针对新引入的角色还是针对所有的角色?如果是前者,我们要评分的角色和角色介绍里的角色差多少?如果是后者,应该给这些角色分多久等级?

第一个想法可能是根据角色介绍中给每个角色的评分来建立一个模型。然而,有了这个模型,我们可能无法随着时间的推移动态跟踪人们的分数。此外,我们可能会因为介绍中的一些“好”特性而忽略潜在的反派。

相反,我们也可以构建这样一个模型,只要他/她出现在剧情中,就会被评分一次。这将允许我们在每个时间段对人进行评分,并检测任何异常情况。然而,考虑到当每个角色单独出现时,可能没有任何角色类别开发,这可能也不是最实用的方法。

经过仔细考虑,我们决定在这两种想法之间设计模型。比如建立这样的模型,每次有意义的事情发生就给人物打分,比如结交新盟友,占领龙族领地等等。这样我们还是可以跟踪角色随时间的收视率,同时也不会给没有最新进展的角色更多的收视率。

如何模拟评分?

因为我们的目的是分析每个时期的分数,所以我们的训练集应该反映某个角色在一定时期内的类别行为。最终的训练数据集如下图所示:

每个角色关联的时间不一定是连续的,因为我们关注的是重要事件发展的时间。

在这个例子中,贾登在三个不同的场合扮演了重要的角色,并在一段时间内继续扩大他的军队。相比之下,迪内阿斯在五个不同的场合扮演了重要角色,负责四个龙中心基地。

样本

在机器学习模型中,需要对观测数据进行下采样。采样过程本身很简单。一旦获得所需的训练数据集,就可以对数据集进行基于行的采样。

然而,因为这里描述的模型处理多个周期中每个字符的样本,所以基于行的采样可能导致场景中的附加字符在用于建立模型的数据和用于验证的数据之间被分离的情况。如下表所示:

显然,这不是一个理想的采样,因为我们没有得到每个角色的整体描述,而这些缺失的观察数据对于构建一个好的模型可能非常重要。

为此,我们需要做基于角色的采样。这样做可以确保在模型数据建立中包括所有附加的角色或者什么都不包括。

此外,当我们将我们的数据集分为训练集和测试集时,这种逻辑通常适用。

特征设计

特征设计是机器学习不可缺少的一部分。一般来说,对数据的良好理解有助于形成更好的模型设计思路。特征设计的例子包括特征归一化和分类特征处理。

特征标准化是一种标准化特征的方法,允许更合理的比较。如下表所示:

从上表可以看出,每个角色有一万名士兵。但是,Serion执政五年,Dineas只执政两年。通过这些人物对比士兵的绝对数量,可能不是很有效。然而,按照人物掌权的年份对其进行标准化可能会提供更好的见解,并产生更多的预测特征。

转换分类特征最常用的方法是矢量化(也称为一热编码)。然而,在处理许多不同的分类特征时,使用条件概率编码(CP-coding)更为实用。

CP-coding的基本思想是计算某个特征值在给定分类级别的出现概率。这种方法使我们能够将所有级别的分类特征转换成一个单一的数字变量。

然而,这种类型转换可能会由于描述不足的类别而导致噪声数据。在上面的例子中,我们只有一个来自House的带有“高”的观察样本。结果对应的概率是0或者1。为了避免这个问题,减少噪声数据,通常可以通过考虑加权平均、全局概率或引入平滑超系数来调整概率的计算方式。

那么,哪种方法最好呢?这取决于分类特征的数量和级别。CP编码是一个很好的选择,因为它降低了特征的维数,但会牺牲特征之间的互信息。这种方法叫做矢量化保存。另外,我们可以将这两种方法进行整合,即将相似的类特征结合起来,然后使用CP-coding对整合后的特征进行处理。

模型性能评估

在评估模型性能时,我们需要注意正面角色和负面角色的比例。在我们的示例模型中,数据的最终统计格式是[字符*句点](如下表中的左侧)。但是,模型评估应该在角色类别中进行衡量(就在下表中)。

结果,在模型构建数据和模型评估数据之间,正字符与负字符的比率存在显著差异。在评估模型的准确性和召回率时,分配适当的权重非常重要。

此外,因为我们可能使用下采样来减少观察样本的数量,所以我们还需要在采样过程中调整模型的准确性和召回率。

评估准确性和召回率

模型评估的两个主要评估指标是精度和召回率。在我们的例子中,准确性是正确预测的负面角色的比例。它测量给定阈值下模型的精度。另外,召回率是模型能够从原负面角色中正确检测出负面角色的比例。它通过识别给定阈值下的负特征来衡量模型的综合指数。这两个变量很容易混淆,所以通过下表可以更直观地看出它们之间的区别。

最终数据通常分为四个不同的部分:

真阳性(TP):角色是阴性人物,模型预测阴性人物;

假阳性(FP):角色是阳性角色,模型预测阴性角色;

真否定(TN):角色是一个积极的人,模型预言了一个积极的人;

假阴性(FN):角色是一个消极的人,模型预测一个积极的人;

准确度计算:在所有预测的阴性人群中,模型预测正确的比例为TP /(TP+FP)。

召回率的计算:在所有原本为负数的数字中,模型正确预测的比例为TP/(TP+FN)。

从观察可以看出,准确率和召回率的分子虽然相同,但分母不同。

在选择高准确率和高召回率之间总有一个取舍。这取决于建立模型的最终目标。在某些情况下,高准确率可能比高召回率好。然而,对于欺诈预测模型,高召回率通常是首选,即使牺牲了一些准确性。

有许多方法可以提高模型的准确性和召回率。这些包括增加更好的功能,优化决策树的修剪或建立一个更大的森林,等等。然而,鉴于讨论范围很广,我打算把它放在单独的一篇文章中。

标签

希望这篇文章能让读者知道构建一个机器学习模型需要什么。遗憾的是,建立一个好的模型并没有一刀切的解决方案,充分理解数据的上下文是关键,因为我们可以从中提取更多更好的预测特征,从而建立更优化的模型。

最后,虽然把角色分为正面和负面是很主观的,但是类别标签确实是机器学习中很重要的一部分,不好的类别标签通常会导致模型不好。造型快乐!

注意:这种模式保证了每个角色都是正面角色或者负面角色,也就是说,如果生来就是负面角色,那么他们的一生都是负面角色。如果我们假设角色可以是跨类别标签的中性字符,那么模型的设计将完全不同。

《设计机器学习模型:精确与回忆的故事》(译者/刘校订/、朱正贵主编/周)

http://nerds.airbnb.com/designing-machine-learning-models/

数据挖掘的介绍与实践

搜索添加微信公众号:datadw

教你机器学习,教你数据挖掘

长按图片,识别二维码,注意

公众号:weic2c

根据分析介绍和实战

长按图片,识别二维码,注意

1.《召回率 欺诈预测机器学习模型设计:准确率和召回率》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《召回率 欺诈预测机器学习模型设计:准确率和召回率》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/tiyu/796042.html

上一篇

李永波干过几个女队员 李永波的性丑闻曝光 李永波强奸龚智超是真的吗

下一篇

超时空同居票房 酷评|看懂《超时空同居》,十句话影评这句最狠:没有进步——女主“功能化”完全为男主服务

方子哥电视剧 《芝麻胡同》各角色曝光,何冰、王鸥、刘蓓、方子哥、海一天“酱”出人情暖心剧

作者:一点排行编辑 2月22日,由编剧柳岩编剧、刘家成导演、何兵、安吉尔、刘备主演的编年体剧《芝麻胡同》将与观众见面。前几天剧党发布了《酱心百体》人物海报。该剧讲述了住在芝麻胡同,经营咸菜店生意几十年的严振声一家的烟火生活。暴露的人物海报以酱园为基础,酱菜缸四周是各...

厨师烹饪还原100道模型菜 究竟是怎么一回事

厨师烹饪还原100道模型菜 究竟是怎么一回事

  5日,湖南长沙千年湘菜全国巡回展上,摆了满满两桌各100碗色香味俱全的湘菜。两桌菜看起来相似,其实一桌是巡展模型菜,另一桌是现场烹饪的真菜。90后厨师戴勇攀表示,从小对弘扬...

在家锻炼身体的方法 国家疾控最新数据:中国人身体活动太少了!居家期间可以这样锻炼

在家锻炼身体的方法 国家疾控最新数据:中国人身体活动太少了!居家期间可以这样锻炼

作者:一点排行编辑 体育活动有助于降低患心血管疾病、癌症和糖尿病等慢性病的风险。然而,缺乏体育活动非常普遍,已经成为世界十大死亡风险因素之一。在中国,这已经成为慢性病的主要原因之一。最近,中国疾控中心营养与健康研究所的团队在《中国疾控中心周报》上发布了中国成年人体育...

演员罗晋 明说文娱丨与角色碰撞,演员罗晋谈不为人知的感受

演员罗晋 明说文娱丨与角色碰撞,演员罗晋谈不为人知的感受

《明明娱乐》演员罗进访谈光明网记者王恩辉董腾飞张晓容1月10日,电视剧《江山如此多美人》上映。主演罗进接受光明采访。com的“明明娱乐”。交通明星应该对社会有益罗进:娱乐圈明星络绎不绝,对我没有压力。他们通过不同的表达方式影响周围的人和社会。我认为这种影响一定是好的...

陆尔豪 太太太好笑了!一部剧靠一句话撑起一个角色的苏明哲,不愧是我们当初认识的陆尔豪!

作者:一点排行编辑 今天中午,热播剧《一切都好》的老板苏明哲说了一句“你真让我失望”,一下子跳进热搜。剧中,苏明哲成了这句话的代言人。每次苏的父亲向明哲诉苦,明哲总是第一时间打电话,“明玉,你太让我失望了”;“明成,你太让我失望了”;“吴菲,你让我太失望了”...苏...

苏明哲老婆 太太太好笑了!一部剧靠一句话撑起一个角色的苏明哲,不愧是我们当初认识的陆尔豪!

苏明哲老婆 太太太好笑了!一部剧靠一句话撑起一个角色的苏明哲,不愧是我们当初认识的陆尔豪!

作者:一点排行编辑 今天中午,热播剧《一切都好》的老板苏明哲说了一句“你真让我失望”,跳进热搜。剧中,苏明哲成了这句话的代言人。每次苏的父亲向明哲诉苦,明哲总是第一时间打电话,“明玉,你太让我失望了”;“明成,你太让我失望了”;“吴菲,你让我太失望了”...苏明哲的...

大数据杀熟 人人都在聊大数据杀熟?你真的了解大数据吗?

  • 大数据杀熟 人人都在聊大数据杀熟?你真的了解大数据吗?
  • 大数据杀熟 人人都在聊大数据杀熟?你真的了解大数据吗?
  • 大数据杀熟 人人都在聊大数据杀熟?你真的了解大数据吗?

锫 岳培锫老师《过去分词作宾语补足语》微课赏析(1)——微课的媒体设计模型

  • 锫 岳培锫老师《过去分词作宾语补足语》微课赏析(1)——微课的媒体设计模型
  • 锫 岳培锫老师《过去分词作宾语补足语》微课赏析(1)——微课的媒体设计模型
  • 锫 岳培锫老师《过去分词作宾语补足语》微课赏析(1)——微课的媒体设计模型