当前位置:首页 > 娱乐星闻

测谎仪 大数据测谎仪 - 微表情神马的都弱爆了

本文简介

利用信息进行推理,从而发现不合理之处是人类识别谎言的方式。然而,随着信息量的增加,人们对识别谎言的推理能力的需求也呈指数级增长。本文介绍了一种通过贝叶斯网络推理海量信息的方法,可以帮助你发现逻辑漏洞,快速识别复杂因果网络中的谎言。

大数据技术能否帮助我们判断一个人是否在说谎?

首先,我们来思考一下人们是如何识别谎言的。

比如你工作到很晚,准备回家,同事A说“刚下雨”,同事B说“刚才没下雨”。不提供补充信息,就分不清哪个在说谎。但如果你知道A平时老实,B经常撒谎,那么B撒谎的概率就高很多。所以判断谎言的条件之一就是要有信息。在没有信息的情况下,再聪明的人也无法判断真假,而大数据玩的是信息不对称。这个条件是适当满足的。

那么,在信息的基础上,我们如何做出判断呢?

或者只是举个例子,如果你记得中午上班的时候,看到一大片乌云从东边飘来,公司外面的草坪湿漉漉的。要知道,乌云可能会导致下雨,而潮湿的草坪可能会因为下雨。这样一来,你会觉得B说谎的概率更高。在这个例子中,你推理事件之间的因果关系,并基于此估计A和B说谎的概率。

贝叶斯网络是一种能够表达变量之间因果关系的模型。上面的例子可以用下面的贝叶斯网络来表示。其中箭头方向表示因果关系(从原因到结果)。“是否有乌云”、“草坪是否潮湿”是已知的观测,而“是否下雨”是未知的隐藏变量。贝叶斯网络使用优雅的数学语言,将三个事件的因果关系描述为图形右侧的条件概率表,可以用来从已知事件的概率分布中推断未知事件的概率分布。比如已知下雨的概率为p(雨|乌云)=0.8,雨后草坪湿的概率为p(湿草坪|雨)=0.9,那么从统计公式可以推断,在乌云和湿草坪都存在的情况下,下雨的概率为p(雨|乌云和湿草坪)=0.94。

了解了上面简单的模型之后,我们来看一个实际问题。很多时候,我们需要通过问卷来收集信息。比如招聘的时候,我们可以通过健康问卷初步了解一个员工的健康状况。健康问卷可以包括吸烟、饮酒、患某些疾病等。但问题是,我们如何知道员工是否如实填写了问卷?一些员工可能会选择隐藏一些事实,以便成功加入公司。例如,他们声称已经戒烟,但仍然继续吸烟。

在这里,我们希望使用贝叶斯网络来判断一个人在填写健康问卷时是否说谎。

先说数据。在这个场景中,我们可能会掌握以下三种类型的信息-

员工的个人特征,如年龄、性别和教育水平

员工填写的健康状况问卷,如吸烟和疾病史

员工体检报告

上述各维度信息的因果关系复杂。比如一个人的“声称自己是否吸烟”是由他的“诚实”和“是否吸烟”决定的。经过简单分析,可以用下图来表示一个简化的因果网络,其中黑色节点表示可观测的数据,白色节点表示不可观测的隐藏数据。

我们的最终目标是基于可观察的数据来推断隐藏节点的数据。实现这一目标需要两步:

基于大量的数据,得到因果信息,即条件概率表。例如,如果一个人“实际吸烟”和“不诚实”,那么他“声称不吸烟”或“声称吸烟”的可能性有多大

基于训练好的贝叶斯网络,在已知各维度信息的情况下,推断客户说谎的概率。举个例子,如果一个顾客已知是一个年纪较大的失业男性,并且声称已经戒烟并患有肺炎,那么他说谎的可能性有多大?

我们随机抽样4万条数据,通过训练得到贝叶斯网络的条件概率表。例如,在“不诚实”和“实际饮酒”的情况下,一个人声称“不饮酒”、“饮酒”和“已戒酒”的概率分别为p1、p2和p3,其概率分布如下图所示(为了保护员工隐私,我们省略了实际横坐标值)。从图中可以看出,不诚实的酒鬼在填写健康调查表时,很可能会声称自己不喝酒,并且有中等概率如实回答自己喝酒(或许他认为喝酒不值得隐瞒),有小概率声称自己已经戒酒。

我们关心的另一个问题是,有多少人在填写健康问卷时选择隐藏一些事实。在没有任何约束的情况下,一个人如实填写健康调查表的概率分布如下图所示(同样,我们省略了实际横坐标值)。不出所料,其概率分布的峰值不在p=1的位置,说明有人在说谎。但好消息是,大部分人都是诚实的,说谎的人比例很低。

通过训练好的贝叶斯网络模型,我们可以在下一步根据已知的信息来猜测某人说谎的概率。比如,一个声称已经戒酒的员工比一个声称从未喝酒的员工更容易撒谎。这个结果并不意外。想象一下,如果你是一个酒鬼,当你想撒谎的时候,你会经常说你已经戒酒了而不是没有喝酒。因为-

“能欺骗你的,往往不是经不起理性检验的谎言,而是经过刻意筛选过滤的一些真相。”

在文章的最后,我想说,我们在使用机器学习方法(如logistic回归模型)解决实际问题时,往往忽略了变量之间的因果关系。以记分卡为例,原因类的变量(即不诚实的原因,如个人特征)和结果类的变量(即不诚实导致的结果,如拖欠水电费)作为输入变量没有区别。这种简化在因果关系简单的情况下可能影响不大,但在变量之间存在复杂因果关系的情况下(比如本文的健康问卷或其他反欺诈问题),模型的性能会受到很大影响,甚至无法给出可信的结果。

如果你看到这里或者不明白大数据是如何判断一个人是否在说谎的,那么请记住下面这句话,它将是你在大数据时代最好的盔甲:

“少套路,多诚意”

关于我们

我们是前海征信的专业数据挖掘团队。我们不仅是数据专家,也是数据“玩家”。我们不仅使用数据挖掘技术解决专业领域的问题,还享受寻找各领域数据的乐趣,以有趣易懂的方式为您提供新鲜可靠的内容。我们每周都会定期推送一篇原创干货文章。欢迎与我们交流讨论。

1.《测谎仪 大数据测谎仪 - 微表情神马的都弱爆了》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《测谎仪 大数据测谎仪 - 微表情神马的都弱爆了》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1131771.html

上一篇

无双结局

下一篇

令妃是被毒死的吗

青岛福临万家 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看

  • 青岛福临万家 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看
  • 青岛福临万家 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看
  • 青岛福临万家 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看

青岛湖光山色 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看

  • 青岛湖光山色 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看
  • 青岛湖光山色 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看
  • 青岛湖光山色 【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看

裂风 如何攻略跳车级冰翼龙 详细数据解析

  • 裂风 如何攻略跳车级冰翼龙 详细数据解析
  • 裂风 如何攻略跳车级冰翼龙 详细数据解析
  • 裂风 如何攻略跳车级冰翼龙 详细数据解析
失事少年 苹果将为在百慕大发现的失踪少年手机修复数据-苹果,数据,百慕大

失事少年 苹果将为在百慕大发现的失踪少年手机修复数据-苹果,数据,百慕大

苹果将修复在百慕大发现的失踪青少年手机数据——苹果,数据,百慕大苹果,数据,百慕大  遇难少年的手机 据外媒报道,当地时间周五,去年9个月前失踪的两名少年的家人达成协议,将最近在百慕大发现的iPhone 6手机送至苹果进行数据修复。iPhone属于失踪少年之一奥斯汀·斯蒂芬诺斯(Austin...

在线学堂 学堂在线的MOOC之路:平台数据+业务合作

  • 在线学堂 学堂在线的MOOC之路:平台数据+业务合作
  • 在线学堂 学堂在线的MOOC之路:平台数据+业务合作
  • 在线学堂 学堂在线的MOOC之路:平台数据+业务合作

链家二手房北京 链家发布《2015年北京二手房成交大数据》

  • 链家二手房北京 链家发布《2015年北京二手房成交大数据》
  • 链家二手房北京 链家发布《2015年北京二手房成交大数据》
  • 链家二手房北京 链家发布《2015年北京二手房成交大数据》

Lustre 从HPC到大数据:戴尔-Intel Lustre存储解决方案

  • Lustre 从HPC到大数据:戴尔-Intel Lustre存储解决方案
  • Lustre 从HPC到大数据:戴尔-Intel Lustre存储解决方案
  • Lustre 从HPC到大数据:戴尔-Intel Lustre存储解决方案
网上订票支付方式 支付宝数据勾画过年新方式:网上购票 电子红包盛行

网上订票支付方式 支付宝数据勾画过年新方式:网上购票 电子红包盛行

新华社杭州二月十三日电。专题:支付宝数据勾勒出一个过年的新方式:现场过年多,网上购票和电子红包盛行 新华社记者张瑶 13日,蚂蚁金服集团发布数据报告《新年触手可及》。通过对春节期间登录支付宝、使用各种生活服务的4亿多实名用户的群体分析,以数据的形式勾勒出人们过年方式的演变。 报道显示,电子红...