大数据文摘作品,转载要求见文末

作者| Milan Janosov

编译| Aileen、conrue、力量

导游指南:中欧大学的一位真爱拳击语博士生用网络科学的算法,在《权力的游戏》分钟杀死主人公的新剧中预测了以下谁会挂掉。为了不剧透,我不再说了,大家自己看看他的预测和你的预测是否一致。最近追一部GOT的小编还笼罩在各种冲击中。这个Flag算是我认可的。(威廉莎士比亚,《哈姆雷特》)(我什么也没说~)

新赛季的《权力的游戏》终于举行了!广播!得了吧!

像大家想见的粉丝一样,我也很好奇。我很好奇黑脑洞作家这个赛季还会准备什么角色来带便当。(大卫亚设,Northern Exposure(美国电视剧),《艺术》)所以我决定根据角色死亡的可能性,创建一个高低排序算法。

这篇文章的所有分析结果在新赛季开始前已经完成。情节之类的纯属巧妙。

《权力的游戏》的世界和人物关系非常复杂,社会地位和真正的朋友显得尤为重要,所以我使用网络科学(Network Science)工具量化每个角色的社会交互模型,用机器学习方法预测他们的命运。

维斯特洛大陆维斯特洛的社交网络建设

我在粉丝网站(https://genius.com/search)。Q=game of thrones)以对话形式收集剧中字幕作为数据源。不幸的是,第二季度和第三季度的大多数剧都没有了,但剩下的四季包括近600个场景,都可以以统一的形式获得。(大卫亚设)。

首先,我建立了剧中社交系统的综合网络。在这个网络中,每个节点代表一个故事中的角色,两点之间的连接厚度代表关系强度。使用剧中的场景作为衡量社交互动的基本单位(平均每集20个场景)。这意味着,两个人物在同一个场景中出现一次(n次),强度为1(n)的关系将连接在一起,出现在一个场景中的两个人将连接在一起。换句话说,场景是完整的图形(complete graph)或clique (Clique),出现在这里的每一对角色都会增加自己的关系强度。通过计算和集成这些场景级别的完整网络,可以获得维斯特洛大陆Westeros的全球社交网络(连接全景)。这个网络有近400个节点和3000多个角。

在网络可视化中,不同大家庭的成员用不同的颜色表示。(例如:蓝色-史塔克家族的Starks、红色-兰尼斯特家族的Lannisters、黄色-马尔特尔家族的Martells),其他非家族成员都用灰色标记。

节点大小与角色的联系人数成正比,最核心的角色名称显示在节点旁边。度(以下说明节点的度是什么)低、不太有趣的节点将被过滤。

我们可以发现一无所知的约翰。雪Jon Snow周围被独立的社交团体包围,可以看出北部长城附近的角色与王内其他角色的联系很少。小恶魔Tyrion有独立的角色。他将龙马Daenerys Targaryen与社交网络中心Kingland联系起来。(威廉莎士比亚、君临、君临、君临、君临、君临)该中心主要是史塔克家族Starks和兰尼斯特家族Lannisters,以及史塔克Stark和图利家族(狼妈妈家)的同盟、兰尼斯特家族LANNISTERT

现在我们来看看数学原理。节点的重要性有多种测量方法。我们认为,这些衡量指标可以表明在这个社交生态系统中一个角色的重要性。这些指标包括:

(1)节点-角色有多少联系人?

(2)权重-节点边界权重的总和;

(3)群集-联系人节点对之间的互连频率

(4)中间中心-通过测量一个节点出现在另一对节点之间最短路径上的频率,来测量它是信息通信桥梁的程度。

除了更好地理解谁重要外,我们还可以从过去6个季度中哪些角色带便当的数据中获得经验。我们的目标是将网络位置与幸存者联系起来。位置能预测生存概率吗?也就是说,我们想训练一种算法,能够预测哪些网络指标导致角色死亡。

亡。

表1:六个随机角色的特征集(基于网络分析)和目标变量(前六季中角色是否死亡)

横坐标:小乔大帝、班杨史塔克、希恩葛雷乔伊、琼恩雪、梅丽桑卓

纵坐标:度、加权度、网页排名、群集性、特征中心性、紧密中心性、中间中心性、死亡与否

开始我的表演:强力预测

有94个角色值得我们关注。他们都可以用七个不同的基于网络的指标来描述,这些指标代表了不同维度的社交重要度。我们也知道哪些角色已经死了(其中的61个)。基于这些指标,通过下面的方法,对于哪个角色会在接下来死去我们可以形成有根据的推测:了解还活着的人有哪些和已经死去的角色有相似的特征。这个问题类似于众所周知的流失问题,多种基于分类的算法能解决这类问题。在这个分析中我们使用SVM(支持向量机),这也是最准确的模型。如果你想自己在家尝试的话,它在Python中有一个很容易上手的应用 (http://blog.yhat.com/posts/predicting-customer-churn-with-sklearn.html) 。

机器学习算法会把所有特征计算在内,并预测目标变量可能的值。在这个例子中,数据被多次随机分为测试和训练集,所有分组数据都能生成预测值,并进一步得到最终结果。

在这种交叉验证中,SVM分类器有72.3%的概率预测到正确的分类结果(死了或者活着),考虑到数据的类型和规模这个结果是合理的。为了说明模型准确度,模型认为有八个角色不应该死掉,但是在故事中他们死了—模型无法预测到他们的死亡。比如小玫瑰Margaery Tyrell—似乎皇后死亡比皇帝死亡可能性小,还有Janos Slynt(前都城卫队司令),他被从君临城流放到了北境长城,导致他极有势力的朋友无法救他,尽管模型建议他们去救。

需要说明的是,有其他一些手段可以增加预测的准确性,例如引入其他特征类型(比如:性别、是否是贵族、对话情感分析等等),拥有更完备的数据集,对比电视剧和原著小说等。这个模型也忽视了一些差异性,如琼恩雪Jon Snow死而复生、班杨史塔克Benjen Stark介于活与死之间。

结论—剧透预警!

使用SVM模型我们得到了答案——每个重要角色死亡的概率。因为网络指标经常相关性很高,我们无法找到单独一个或两个能非常准确预测结论的指标,但似乎高中间中心性,低群集性和高节点度的角色更不容易被杀害。

不论在哪种情况下,机器学习在大量的特征中准确的找到了隐藏的关系。在预测中,我使用五折交叉检验,并且把这个过程重复了100次来获得统计值和概率误差的估算。最后,下面是按照最终预测模型显示的存活率升序排列的角色列表:

表2:在一百次概率值重复预测(五折交叉检验)后,获得的《权力的游戏》的角色和他们基于网络中心模式的死亡概率及误差。

横坐标从上而下分别为:Tyene(红毒蛇的小女儿)、龙妈、灰虫子、劳勃艾林(乖罗宾,新任鹰巢城公爵)、波德瑞克(小恶魔前侍从)、艾德慕徒利、大琼恩安柏、贾坤、波隆、艾丽娅史塔克、猎狗桑铎克里冈、美人布蕾妮、梅丽桑卓、老玫瑰奥伦娜提利尔、雅拉葛雷乔伊、次子团团长达里奥纳哈里斯、詹姆兰尼斯特、詹德利(劳勃拜拉席恩的私生子)、布兰登史塔克、三傻史塔克、八爪蜘蛛瓦里斯、小恶魔提利昂兰尼斯特、小指头培提尔贝里席、科本学士

纵坐标:死亡概率、误差

预测死亡概率最高是这位妹子…我说什么好…(我什么也没说!剧透可耻!)

这个死亡概率列表告诉我们很多有趣的事:

  • 由于和很多死亡嫌疑人的网络重叠,龙妈Daenerys很可能马上会挂,但小恶魔Tyrion和琼恩雪Jon Snow是相对安全的。

  • 一直受欢迎的艾丽娅史塔克Arya Stark和不太友好的猎狗,之前已多次面临死亡,现在也都在非常危险的位置上。

  • 令人惊讶的,现在正坐在铁王座上的瑟曦Cersei,和正在努力争取坐上去的小指头Baelish,看起来安全的多。

  • 看起来乔拉莫尔蒙爵士Jorah Mormont将会找到灰鳞病的治疗方法,尽管希恩葛雷乔伊历尽艰难,却可能会幸存。(咳咳!剧透可耻!)

  • 可惜的是,鹰巢城艾林家族的命运就很难说了。

恩…是很有趣…各位怎么看?

原文链接:

1.《【达里奥纳哈里斯结局】新赛季《权力的游戏》谁还会挂?算法神预测龙妈会去领便当!》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【达里奥纳哈里斯结局】新赛季《权力的游戏》谁还会挂?算法神预测龙妈会去领便当!》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/yule/2485442.html