测谎仪大数据测谎仪 - 微表情神马的都弱爆了

本文简介

利用信息进行推理，从而发现不合理之处是人类识别谎言的方式。然而，随着信息量的增加，人们对识别谎言的推理能力的需求也呈指数级增长。本文介绍了一种通过贝叶斯网络推理海量信息的方法，可以帮助你发现逻辑漏洞，快速识别复杂因果网络中的谎言。

大数据技术能否帮助我们判断一个人是否在说谎？

首先，我们来思考一下人们是如何识别谎言的。

比如你工作到很晚，准备回家，同事A说“刚下雨”，同事B说“刚才没下雨”。不提供补充信息，就分不清哪个在说谎。但如果你知道A平时老实，B经常撒谎，那么B撒谎的概率就高很多。所以判断谎言的条件之一就是要有信息。在没有信息的情况下，再聪明的人也无法判断真假，而大数据玩的是信息不对称。这个条件是适当满足的。

那么，在信息的基础上，我们如何做出判断呢？

或者只是举个例子，如果你记得中午上班的时候，看到一大片乌云从东边飘来，公司外面的草坪湿漉漉的。要知道，乌云可能会导致下雨，而潮湿的草坪可能会因为下雨。这样一来，你会觉得B说谎的概率更高。在这个例子中，你推理事件之间的因果关系，并基于此估计A和B说谎的概率。

贝叶斯网络是一种能够表达变量之间因果关系的模型。上面的例子可以用下面的贝叶斯网络来表示。其中箭头方向表示因果关系(从原因到结果)。“是否有乌云”、“草坪是否潮湿”是已知的观测，而“是否下雨”是未知的隐藏变量。贝叶斯网络使用优雅的数学语言，将三个事件的因果关系描述为图形右侧的条件概率表，可以用来从已知事件的概率分布中推断未知事件的概率分布。比如已知下雨的概率为p(雨|乌云)=0.8，雨后草坪湿的概率为p(湿草坪|雨)=0.9，那么从统计公式可以推断，在乌云和湿草坪都存在的情况下，下雨的概率为p(雨|乌云和湿草坪)=0.94。

了解了上面简单的模型之后，我们来看一个实际问题。很多时候，我们需要通过问卷来收集信息。比如招聘的时候，我们可以通过健康问卷初步了解一个员工的健康状况。健康问卷可以包括吸烟、饮酒、患某些疾病等。但问题是，我们如何知道员工是否如实填写了问卷？一些员工可能会选择隐藏一些事实，以便成功加入公司。例如，他们声称已经戒烟，但仍然继续吸烟。

在这里，我们希望使用贝叶斯网络来判断一个人在填写健康问卷时是否说谎。

先说数据。在这个场景中，我们可能会掌握以下三种类型的信息-

员工的个人特征，如年龄、性别和教育水平

员工填写的健康状况问卷，如吸烟和疾病史

员工体检报告

上述各维度信息的因果关系复杂。比如一个人的“声称自己是否吸烟”是由他的“诚实”和“是否吸烟”决定的。经过简单分析，可以用下图来表示一个简化的因果网络，其中黑色节点表示可观测的数据，白色节点表示不可观测的隐藏数据。

我们的最终目标是基于可观察的数据来推断隐藏节点的数据。实现这一目标需要两步:

基于大量的数据，得到因果信息，即条件概率表。例如，如果一个人“实际吸烟”和“不诚实”，那么他“声称不吸烟”或“声称吸烟”的可能性有多大

基于训练好的贝叶斯网络，在已知各维度信息的情况下，推断客户说谎的概率。举个例子，如果一个顾客已知是一个年纪较大的失业男性，并且声称已经戒烟并患有肺炎，那么他说谎的可能性有多大？

我们随机抽样4万条数据，通过训练得到贝叶斯网络的条件概率表。例如，在“不诚实”和“实际饮酒”的情况下，一个人声称“不饮酒”、“饮酒”和“已戒酒”的概率分别为p1、p2和p3，其概率分布如下图所示(为了保护员工隐私，我们省略了实际横坐标值)。从图中可以看出，不诚实的酒鬼在填写健康调查表时，很可能会声称自己不喝酒，并且有中等概率如实回答自己喝酒(或许他认为喝酒不值得隐瞒)，有小概率声称自己已经戒酒。

我们关心的另一个问题是，有多少人在填写健康问卷时选择隐藏一些事实。在没有任何约束的情况下，一个人如实填写健康调查表的概率分布如下图所示(同样，我们省略了实际横坐标值)。不出所料，其概率分布的峰值不在p=1的位置，说明有人在说谎。但好消息是，大部分人都是诚实的，说谎的人比例很低。

通过训练好的贝叶斯网络模型，我们可以在下一步根据已知的信息来猜测某人说谎的概率。比如，一个声称已经戒酒的员工比一个声称从未喝酒的员工更容易撒谎。这个结果并不意外。想象一下，如果你是一个酒鬼，当你想撒谎的时候，你会经常说你已经戒酒了而不是没有喝酒。因为-

“能欺骗你的，往往不是经不起理性检验的谎言，而是经过刻意筛选过滤的一些真相。”

在文章的最后，我想说，我们在使用机器学习方法(如logistic回归模型)解决实际问题时，往往忽略了变量之间的因果关系。以记分卡为例，原因类的变量(即不诚实的原因，如个人特征)和结果类的变量(即不诚实导致的结果，如拖欠水电费)作为输入变量没有区别。这种简化在因果关系简单的情况下可能影响不大，但在变量之间存在复杂因果关系的情况下(比如本文的健康问卷或其他反欺诈问题)，模型的性能会受到很大影响，甚至无法给出可信的结果。

如果你看到这里或者不明白大数据是如何判断一个人是否在说谎的，那么请记住下面这句话，它将是你在大数据时代最好的盔甲:

“少套路，多诚意”

关于我们

我们是前海征信的专业数据挖掘团队。我们不仅是数据专家，也是数据“玩家”。我们不仅使用数据挖掘技术解决专业领域的问题，还享受寻找各领域数据的乐趣，以有趣易懂的方式为您提供新鲜可靠的内容。我们每周都会定期推送一篇原创干货文章。欢迎与我们交流讨论。

1.《测谎仪大数据测谎仪 - 微表情神马的都弱爆了》援引自互联网，旨在传递更多网络信息知识，仅代表作者本人观点，与本网站无关，侵删请联系页脚下方联系方式。

2.《测谎仪大数据测谎仪 - 微表情神马的都弱爆了》仅供读者参考，本网站未对该内容进行证实，对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址，https://www.lu-xu.com/yule/1131771.html

测谎仪大数据测谎仪 - 微表情神马的都弱爆了

无双结局

令妃是被毒死的吗

青岛福临万家【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看

青岛湖光山色【数据】青岛最贵豪宅、最牛海景小区、最火楼盘...买不起也得看一看

裂风如何攻略跳车级冰翼龙详细数据解析

失事少年苹果将为在百慕大发现的失踪少年手机修复数据-苹果,数据,百慕大

在线学堂学堂在线的MOOC之路：平台数据+业务合作

链家二手房北京链家发布《2015年北京二手房成交大数据》

Lustre 从HPC到大数据：戴尔-Intel Lustre存储解决方案

网上订票支付方式支付宝数据勾画过年新方式：网上购票电子红包盛行

测谎仪 大数据测谎仪 - 微表情神马的都弱爆了

无双结局

令妃是被毒死的吗

测谎仪大数据测谎仪 - 微表情神马的都弱爆了