郝:大观数据高级工程师,获美国大学生数学建模竞赛二等奖,目前参与大观数据推荐系统的研发,负责6、wifi万能钥匙、视频观看等项目。
众所周知,YouTube是世界上最大的视频网站,每天面对不同兴趣的用户。它需要从视频池中捞出当前用户感兴趣、想看的视频,以留住老用户,吸引新用户,这个功能由视频推荐系统提供。
随着不同算法技术的兴起,推荐系统的核心算法也在发生变化。本文以YouTube推荐系统的四篇论文《针对YouTube的视频建议与发现》、《YouTube视频推荐系统》为研究对象,从《针对次线性排序的标签划分》和《针对YouTube推荐的深度神经网络》入手,介绍YouTube对视频推荐系统的升级——2008年采用基于用户-视频图的随机遍历算法,10年升级为基于项目的协同过滤算法,13年将推荐问题转化为多分类问题,从中找出概率最高的输出节点此举也为16年内将推荐核心算法升级为深度学习算法奠定了基础。
论文简介
这四篇论文中,第一篇《针对YouTube的视频建议与发现》和第三篇《针对亚线性排序的标签划分》重点介绍了推荐系统中使用的一些算法,但没有详细介绍推荐系统。
YouTube视频推荐系统和用于YouTube推荐的深度神经网络详细介绍了YouTube推荐系统,该系统由两部分组成。第一部分是候选集的生成。即根据内容数据和用户行为日志,找出要推荐给用户的候选视频。第二部分是对这些候选视频进行排序,把最好的或者前k个最好的视频给用户。
下图是YouTube推荐系统的一般流程:
表示在随机遍历中选择节点u的概率。这样就很容易理解,吸附要选一个点,要做多次计算。
线性吸附
这也很简单,就是
理解为线性组合的比例。
基于ItemCF的推荐系统
YouTube视频推荐系统由戴维森J、利巴德B、刘J等人在2010年第四届ACM RecSys上发布。当时YouTube推荐系统的核心算法是基于Item的协同过滤算法。换句话说,对于一个用户在当前场景和历史兴趣中最喜欢的视频,找出他们相关的视频,过滤掉已经看过的视频,剩下的就是用户很可能喜欢看的视频。这里的视频相关性是用常见点击次数来描述的。整个推荐过程分为两个步骤:
计算视频之间的相关性
实践中候选视频很少,类似于没有多样性的种子集。所有候选集都通过第三步递归扩展。
递归扩展候选集
其中,,是最基本的候选集,在此基础上生成,再结合作为种子集生成候选集,以此类推,生成最终的多元化候选集。
小费
这是一种增加候选集多样性的方法。
种类
对于排序,有三个因素会影响排序
视频质量相关性:可以证明用户喜欢视频的因素
视频观看时间
视频评分
视频评论
视频采集和转发行为
上传时间
种子视频的属性
多样性:推荐不同的主题
限制单个种子视频的候选视频
限制同一上传者的视频数量
主题聚类
文本分析
提示:
在目前的推荐系统中,协同过滤是应用最广泛的,其优势是明显的,即具有高度的个性化,但不可否认的是其冷启动问题和稀疏性问题。基于内容过滤的推荐方法可以解决这两个问题,两者的融合可以使推荐系统更加健壮和高效。
次线性有序标签划分
杰森·韦斯顿等人在2013年第30届国际机器学习大会上发表了题为“亚线性排序的标签划分”的论文。本文将推荐问题转化为多分类问题,解决了如何从神经网络的最后一个输出层找到概率最高的输出节点。
提示:
该算法有广泛的应用,如多文本排序。
算法描述
该算法的基本思想如下:
对于给定的样本x,根据训练样本的划分,将其划分为最可能集合p=g
取标签集q,分配给每个标签。标签被分成的子集在哪里
根据最终结果对l中的每个标签进行评分、计算和排序。
投入产出分工
输入样本的划分有两种方式,一种是加权层次划分器,其思想与加权K-means算法相同,而权重是通过根据标签的预测精度给训练样本xi到中心的距离cj赋予一个权重来获得的,另一种是加权嵌入划分器,它通过对训练样本进行变换,使具有相同标签的训练样本尽可能分成一个集合。实验结果表明,利用优化函数的分布。
对于测试输出的标签划分,本文也提到了两种方法。一种是设计一个优化函数,计算每个标签划分为一个分区后的损失,然后优化所有标签分区的整体损失。另一种是简单计算每个分区中标签出现的频率,选出最频繁的。实验表明,使用优化函数的分区方案是另一个的两倍。
基于深度学习的推荐系统
论文《深层神经网络用于YouTube推荐》由Covington P,Adams J,Sargin E等人在2016年第十届ACM RecSys上发表。此时YouTube推荐系统的核心算法是深度学习法。该方法将推荐问题转化为分类问题。比如用户看了一些视频后,用户最有可能看哪个视频?这是一个推荐问题,但是现在变成了在看了一些视频之后,用户需要预测下一个要看的视频是视频池中的哪个类别。但是,这个类别的数量非常大。对于用户C和用户行为C,语料库V中的视频I分为
用户c包含用户的位置、性别等信息,用户行为c包含观看视频、搜索视频等信息,u代表用户和用户行为信息在高维度上的映射,代表每个候选视频在高维度上的映射。
生成推荐候选集
如下图所示,推荐候选集是通过将推荐问题作为多类分类问题来处理而生成的。步骤如下:
用户的历史信息和其他特征。)被连接成向量,该向量被输入到由修改的线性单元组成的非线性多层感知器,以获得用户的兴趣特征。
在训练阶段,将所有用户的兴趣特征输入Softmax进行多分类训练,得到模型;
在预测阶段,计算用户兴趣特征与所有视频特征之间的相似度,通过对排名网络的最近邻搜索得到得分较高的k个视频。
种类
排序的目的是再次过滤候选集中的候选视频,选出最适合用户最有可能喜欢看的视频。本文中用于排序的神经网络的结构类似于生成推荐候选集的结构。唯一不需要的就是在最后一层用logistic回归对每个视频打分。由于候选集中的视频数量远远小于原始视频池中的视频数量,因此在这个过滤过程中会添加更多的视频特征和用户特征,从而更准确地推荐用户。推荐结果根据每个视频的评分进行排序,最后根据评分向用户推荐视频。
提示:
对于深度学习,它具有优秀的特征提取能力,可以学习多层次的特征,并提取视频信息和用户信息中隐藏的特征。类似YouTube的基于深度学习的推荐,首先通过深度候选生成模型,利用视频和用户的主要信息,从数百万个视频中找到数百个相关视频,然后通过深度排序模型,利用用户的视频和其他信息,从数百个视频中找到几十个最有可能受到用户欢迎的视频。这样大大增强了推荐系统中描述用户偏好的能力,描述的范围更广。
认为
从以上四篇论文可以看出,YouTube一直在尝试将最流行的技术应用到推荐系统中,并不断对系统进行升级和演进,使其能够在不同的环境中更好的选择最合适的解决方案。简而言之,多个模型有多个路径。
引用
针对YouTube的视频建议和发现:在视图图中随机漫步
YouTube视频推荐系统
评估相似性度量:orkut社交网络中的一项大规模研究
用于次线性排序的标签划分
深层神经网络为youtube推荐
1.《相关推荐 技术干货 | 细说YouTube推荐系统的变迁》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《相关推荐 技术干货 | 细说YouTube推荐系统的变迁》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1663794.html