本文简介
利用信息进行推理,从而发现不合理之处是人类识别谎言的方式。然而,随着信息量的增加,人们对识别谎言的推理能力的需求也呈指数级增长。本文介绍了一种通过贝叶斯网络推理海量信息的方法,可以帮助你发现逻辑漏洞,快速识别复杂因果网络中的谎言。
大数据技术能否帮助我们判断一个人是否在说谎?
首先,我们来思考一下人们是如何识别谎言的。
比如你工作到很晚,准备回家,同事A说“刚下雨”,同事B说“刚才没下雨”。不提供补充信息,就分不清哪个在说谎。但如果你知道A平时老实,B经常撒谎,那么B撒谎的概率就高很多。所以判断谎言的条件之一就是要有信息。在没有信息的情况下,再聪明的人也无法判断真假,而大数据玩的是信息不对称。这个条件是适当满足的。
那么,在信息的基础上,我们如何做出判断呢?
或者只是举个例子,如果你记得中午上班的时候,看到一大片乌云从东边飘来,公司外面的草坪湿漉漉的。要知道,乌云可能会导致下雨,而潮湿的草坪可能会因为下雨。这样一来,你会觉得B说谎的概率更高。在这个例子中,你推理事件之间的因果关系,并基于此估计A和B说谎的概率。
贝叶斯网络是一种能够表达变量之间因果关系的模型。上面的例子可以用下面的贝叶斯网络来表示。其中箭头方向表示因果关系(从原因到结果)。“是否有乌云”、“草坪是否潮湿”是已知的观测,而“是否下雨”是未知的隐藏变量。贝叶斯网络使用优雅的数学语言,将三个事件的因果关系描述为图形右侧的条件概率表,可以用来从已知事件的概率分布中推断未知事件的概率分布。比如已知下雨的概率为p(雨|乌云)=0.8,雨后草坪湿的概率为p(湿草坪|雨)=0.9,那么从统计公式可以推断,在乌云和湿草坪都存在的情况下,下雨的概率为p(雨|乌云和湿草坪)=0.94。
了解了上面简单的模型之后,我们来看一个实际问题。很多时候,我们需要通过问卷来收集信息。比如招聘的时候,我们可以通过健康问卷初步了解一个员工的健康状况。健康问卷可以包括吸烟、饮酒、患某些疾病等。但问题是,我们如何知道员工是否如实填写了问卷?一些员工可能会选择隐藏一些事实,以便成功加入公司。例如,他们声称已经戒烟,但仍然继续吸烟。
在这里,我们希望使用贝叶斯网络来判断一个人在填写健康问卷时是否说谎。
先说数据。在这个场景中,我们可能会掌握以下三种类型的信息-
员工的个人特征,如年龄、性别和教育水平
员工填写的健康状况问卷,如吸烟和疾病史
员工体检报告
上述各维度信息的因果关系复杂。比如一个人的“声称自己是否吸烟”是由他的“诚实”和“是否吸烟”决定的。经过简单分析,可以用下图来表示一个简化的因果网络,其中黑色节点表示可观测的数据,白色节点表示不可观测的隐藏数据。
我们的最终目标是基于可观察的数据来推断隐藏节点的数据。实现这一目标需要两步:
基于大量的数据,得到因果信息,即条件概率表。例如,如果一个人“实际吸烟”和“不诚实”,那么他“声称不吸烟”或“声称吸烟”的可能性有多大
基于训练好的贝叶斯网络,在已知各维度信息的情况下,推断客户说谎的概率。举个例子,如果一个顾客已知是一个年纪较大的失业男性,并且声称已经戒烟并患有肺炎,那么他说谎的可能性有多大?
我们随机抽样4万条数据,通过训练得到贝叶斯网络的条件概率表。例如,在“不诚实”和“实际饮酒”的情况下,一个人声称“不饮酒”、“饮酒”和“已戒酒”的概率分别为p1、p2和p3,其概率分布如下图所示(为了保护员工隐私,我们省略了实际横坐标值)。从图中可以看出,不诚实的酒鬼在填写健康调查表时,很可能会声称自己不喝酒,并且有中等概率如实回答自己喝酒(或许他认为喝酒不值得隐瞒),有小概率声称自己已经戒酒。
我们关心的另一个问题是,有多少人在填写健康问卷时选择隐藏一些事实。在没有任何约束的情况下,一个人如实填写健康调查表的概率分布如下图所示(同样,我们省略了实际横坐标值)。不出所料,其概率分布的峰值不在p=1的位置,说明有人在说谎。但好消息是,大部分人都是诚实的,说谎的人比例很低。
通过训练好的贝叶斯网络模型,我们可以在下一步根据已知的信息来猜测某人说谎的概率。比如,一个声称已经戒酒的员工比一个声称从未喝酒的员工更容易撒谎。这个结果并不意外。想象一下,如果你是一个酒鬼,当你想撒谎的时候,你会经常说你已经戒酒了而不是没有喝酒。因为-
“能欺骗你的,往往不是经不起理性检验的谎言,而是经过刻意筛选过滤的一些真相。”
在文章的最后,我想说,我们在使用机器学习方法(如logistic回归模型)解决实际问题时,往往忽略了变量之间的因果关系。以记分卡为例,原因类的变量(即不诚实的原因,如个人特征)和结果类的变量(即不诚实导致的结果,如拖欠水电费)作为输入变量没有区别。这种简化在因果关系简单的情况下可能影响不大,但在变量之间存在复杂因果关系的情况下(比如本文的健康问卷或其他反欺诈问题),模型的性能会受到很大影响,甚至无法给出可信的结果。
如果你看到这里或者不明白大数据是如何判断一个人是否在说谎的,那么请记住下面这句话,它将是你在大数据时代最好的盔甲:
“少套路,多诚意”
关于我们
我们是前海征信的专业数据挖掘团队。我们不仅是数据专家,也是数据“玩家”。我们不仅使用数据挖掘技术解决专业领域的问题,还享受寻找各领域数据的乐趣,以有趣易懂的方式为您提供新鲜可靠的内容。我们每周都会定期推送一篇原创干货文章。欢迎与我们交流讨论。
1.《测谎仪 大数据测谎仪 - 微表情神马的都弱爆了》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《测谎仪 大数据测谎仪 - 微表情神马的都弱爆了》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/1131771.html