关于机器,用户画像和内容画像制作精细后如何推荐?这篇文章以今日头条为例,谈谈推荐策略。

关于推荐

首先,为了让读者更好地理解这篇文章,笔者建议将今日头条(最好在手机上上下上传“今日头条”应用程序,注册头条并登陆后台)以该产品为例,输出与推荐(分发)部分内容相关的“干货”。

回到题目,推荐是什么?

总之,“物以类聚,人以群分。”

那是什么,人是什么?

答:事物是内容(文章/图形/视频等)、用户(刷今日头条的用户)。

那么机器如何知道内容和人属于哪一类呢?

再答:“内容画像”和“用户画像”的构建、推荐过程实际上是完成用户与内容的匹配。

那么“内容画像”和“用户画像”是什么呢?机器如何正确构建和匹配两者?

内容画像

内容肖像画是内容的简单特征。可视化内容时,笔者倾向于假设内容漏斗(类似于倒三角形用户漏斗,但显示的关系不一定是层次关系)(见图1)。第一层通常表示内容的垂直区域(大类别),接下来的几层可以大致表示为标签/关键字/主题词等小类别。

(图2:百度图片,仅图标忽略文字)

考虑到内容漏斗有多个层,为了便于理解,我将简单说明用户直观地看到的几个层。最引人注目的可能是第一层,头条(今日头条)内部通常指技术、娱乐、体育等垂直类(垂直领域)。

举个栗子:笔者昨天发表的一篇软文被机器认为是“技术”领域的文章。其内容的第一层是技术。一般来说,机器标记(NLP技术:包括文本分类、命名实体识别等)、手动打字(传说中“tag”的主要形式)、PUGC制作者(统称:head)在发布内容时都会选择领域。

显然,如果只知道内容的大类别,就不能准确地向用户推荐感兴趣的内容。这里再说一层,实际上是tag格式(NLP技术:包括文本主题/关键词提取),但平台只是根据用户的喜好进一步细化内容。(威廉莎士比亚,Northern Exposure(美国电视),)前面举例的这篇文章中,有一些细分了vivo、手机、技术等。(莎士比亚,维多利亚,《北方司法》)。

当然,这个内容漏斗比这两层低得多,细分有很多。例如,在前面举例的句子等中,漏斗可能是技术-手机-Android-VIVO-VIVO旗舰机-vivo NEX-vivo NEX双屏版本。细分的惊喜、内容画像也会变得清晰,推荐会更加准确,当然技术难度也会同样提高。

所以,就像头条是比较强大的竞争产品之一一样,所谓365万个定制订阅渠道的一点信息,可以想想后面支持的推荐算法团队有多强。(莎士比亚,《警》,《王》,《王》,《王》)

当然,除了内容的特点外,内容画像还包括内容的质量、热度、独创性、发布用户的权重等。这个权重是指标题发表的文章(内容冷启动(冷启动)推荐数和后续推荐印象宽度)的标题推荐权重。

关于推荐权重,应该提到以前的平台,目的是让以前的平台通过新手/评论原创(见图6)拥有量化指标(见图6),这个头条号指数实际上可以理解为平台头条号的分数,决定了头条号上发布的内容的推荐权重。如图7所示,第一个数字指数的测量标准有5个主要方面:原创度、垂直度、关注度、健康度和传播度。但是现在在头条网站端后台再也看不到了,但在手机端也能看到。(大卫亚设)。

(图73360 2017年6月26日笔者头条背景)

什么是

用户画像

用户画像?简单来说,性别、学历、年龄、常驻位置等、爱好(篮球迷、数字控制、动漫迷等)制作的“属性图”(技术通常称为“知识图”)

举个栗子:我们通常被机器标记为一个数据组合(图9):技术| 20%,体育|10%,娱乐| 30,健康| 5%。……。

(图9:用户画像示例,来源

《内容算法》)

那么问题来了,机器如何知道一个用户的画像呢?

首先,用户分为新用户和老用户两类。针对前者就涉及到了用户画像构建的一个常见且难点(策略产品面试比问)——(用户)冷启动,通常面试官会问你,如何做用户冷启动?

那么笔者告诉大家一个常见的答案:

  • 首先,新用户打开APP会让选择喜欢的领域;
  • 其二,绝对的冷启动并不存在,用户在其他APP的行为其实也会被监督到,比如:你在淘宝看球鞋,打开头条刷新闻就能刷到你刚看的那款球鞋的广告,也就是说在你打开APP那一刻,你的一个比较明显的属性·体育|篮球已经被获取了。
  • 其三,机器通常会给你推荐当前热点内容「比如科技领域 | iPhone发布新品,娱乐领域 | 汪峰上头条等」,通过你在这些内容下的用户行为(点击,点赞,转发,跳出,停留时长等),机器会对屏幕前面的你有一个“初印象”。

通过你在不同领域内容的用户行为,判断你对内容的兴趣度,从而构建你的一个初步用户画像(这是当前常用的一种用户冷启动方式)。比如:打开头条,给你冷启动推送了12条内容(3条NBA+3条娱乐+3条科技+3条美食),然后你点击了3条体育,2条数码,1条娱乐…..。

那么,最开始的用户画像(V1.0)可能为体育 | 30%,数码领域 | 20%,娱乐领域 | 10%,其他领域 | 20%,目测是一名男性,爱好运动,科技宅等。然后,还发现里面2条体育内容都是和科比有关的,那么你大概率是个男性科密数码控。

后来,你变成了老用户,随着你使用头条的次数越多,你产生的用户行为数据越多,背后的模型就会被训练的越“聪明”。随着你“刷”的越多,你的用户画像也会随之发生不断的变化,变得越来越细化,越精准。

如何推荐

最后,关于机器在用户画像和内容画像精准构建出来之后,如何做推荐呢?

事实上,这其实就是一个匹配(match)的操作。当然,简单说匹配笔者认为还是不够恰当,因为除了这2个用户画像和内容画像(相关性特征)之外,机器在训练模型时还会考虑热度特征(全局热度、分类热度等)、协同特征(相似用户、兴趣分类用户等)、环境特征(时间、地理位置等),详见图10。

(图10:来源文章“今日头条算法原理(全)”)

那么,机器学习到了这些如图6的这些特征之后,推荐模型就会被不断的更新(准确的说是模型的参数在发生更新,如:神经网络在做后向传播时会在每一次迭代时发生相关权重参数的变化),最后机器呈现给不同用户的内容也会因为这些特征的不同而不一样,甚至同类型的用户,也就是所谓的“千人千面”(最早用在电商平台)。而作为内容“消费”平台,这里主要指的是内容分发。

那么如何让内容分发变得更加精准呢?

这里不得不提这两个名词,即:召回和排序。这里难讲,简言之,召回比较依赖于内容和用户的标签匹配度,而排序则涉及到一个用户兴趣倾向性,或者是一个更加细粒度的匹配问题上,因为要保证合适的内容放在合适的位置。

比如:笔者是一个数码控,那如果推送12篇内容给我,我更倾向于第一篇是关于数码的而不是娱乐的。而排序也往往能够反映出推荐策略的优秀程度。因为只有让用户最快的触达你感兴趣的内容才会产生更多的留存,才会激活,才能进行转化(才能更便于平台推送广告等商业化操作)。

当然,AI时代,决定模型表现,或者说我们这里的推荐系统(也可以理解为是一种机器学习模型)的表现,除了算法本身,还有算力(指的是计算机运算能力,这方面头条和竞品无法拉开差距,因为这是钱能够解决的问题),还有另外一个关键项就是数据(高质量的数据)。

关于数据的重要性,让我想到了带我做科研的一位博士师兄(目前在Amazon做推荐)说过的一句话:“Garbage in, Garbage out”,而这句话更适用于AI+产品落地上。简言之,数据对于推荐结果(或者说内容分发)的好坏起着十分根本性的作用。

说到这,请大家跟着笔者思考一个问题,头条DAU(日活)据说2.4亿+,而每个用户日均使用时长70min+,假设用户阅读一篇内容(文章/视频)的平均时间是2min,那么用户阅读内容数据得有2.4亿*70/2 = 84亿+(条)!。

所以,回到最开始的问题,为啥说头条推荐如此牛逼呢?

那是因为推荐算法的3个核心壁垒,头条都属于业内前列(甚至可以称得上是国内NO.1)。

One More Thing

以上,皆为笔者粗鄙之见,所讲内容只是今日头条推荐算法里的极少部分,背后的Model和Data十分庞大与强大,纰漏难免,还望谅解并给予批评指正。

另外,笔者认为机器(计算机)再厉害,也是人类所“赋予”的,机器越来越聪明的背后反映的应该是人(如:推荐算法团队| Modeling & Data processing)在不断的进化变强!

『参考』:

  • 闫泽华|《内容算法》
  • 今日头条·曹欢欢博士|今日头条算法原理(全):
  • Dietmar Jannach等著,蒋凡译|《推荐系统 [ Recommender systems:An introduction]》
  • 项亮|《推荐系统实践》

作者:熊慧超,策略产品小白,南开NLP硕士

本文由 @熊慧超 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

1.《【断物的意思是什么意思是什么意思是什么】以头条为例:谈谈推荐策略。》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《【断物的意思是什么意思是什么意思是什么】以头条为例:谈谈推荐策略。》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/pet/3092694.html