郝:大观数据高级工程师,获美国大学生数学建模竞赛二等奖,目前参与大观数据推荐系统的研发,负责6、wifi万能钥匙、视频观看等项目。

众所周知,YouTube是世界上最大的视频网站,每天面对不同兴趣的用户。它需要从视频池中捞出当前用户感兴趣、想看的视频,以留住老用户,吸引新用户,这个功能由视频推荐系统提供。

随着不同算法技术的兴起,推荐系统的核心算法也在发生变化。本文以YouTube推荐系统的四篇论文《针对YouTube的视频建议与发现》、《YouTube视频推荐系统》为研究对象,从《针对次线性排序的标签划分》和《针对YouTube推荐的深度神经网络》入手,介绍YouTube对视频推荐系统的升级——2008年采用基于用户-视频图的随机遍历算法,10年升级为基于项目的协同过滤算法,13年将推荐问题转化为多分类问题,从中找出概率最高的输出节点此举也为16年内将推荐核心算法升级为深度学习算法奠定了基础。

论文简介

这四篇论文中,第一篇《针对YouTube的视频建议与发现》和第三篇《针对亚线性排序的标签划分》重点介绍了推荐系统中使用的一些算法,但没有详细介绍推荐系统。

YouTube视频推荐系统和用于YouTube推荐的深度神经网络详细介绍了YouTube推荐系统,该系统由两部分组成。第一部分是候选集的生成。即根据内容数据和用户行为日志,找出要推荐给用户的候选视频。第二部分是对这些候选视频进行排序,把最好的或者前k个最好的视频给用户。

下图是YouTube推荐系统的一般流程:

表示在随机遍历中选择节点u的概率。这样就很容易理解,吸附要选一个点,要做多次计算。

线性吸附

这也很简单,就是

理解为线性组合的比例。

基于ItemCF的推荐系统

YouTube视频推荐系统由戴维森J、利巴德B、刘J等人在2010年第四届ACM RecSys上发布。当时YouTube推荐系统的核心算法是基于Item的协同过滤算法。换句话说,对于一个用户在当前场景和历史兴趣中最喜欢的视频,找出他们相关的视频,过滤掉已经看过的视频,剩下的就是用户很可能喜欢看的视频。这里的视频相关性是用常见点击次数来描述的。整个推荐过程分为两个步骤:

计算视频之间的相关性

实践中候选视频很少,类似于没有多样性的种子集。所有候选集都通过第三步递归扩展。

递归扩展候选集

其中,,是最基本的候选集,在此基础上生成,再结合作为种子集生成候选集,以此类推,生成最终的多元化候选集。

小费

这是一种增加候选集多样性的方法。

种类

对于排序,有三个因素会影响排序

视频质量相关性:可以证明用户喜欢视频的因素

视频观看时间

视频评分

视频评论

视频采集和转发行为

上传时间

种子视频的属性

多样性:推荐不同的主题

限制单个种子视频的候选视频

限制同一上传者的视频数量

主题聚类

文本分析

提示:

在目前的推荐系统中,协同过滤是应用最广泛的,其优势是明显的,即具有高度的个性化,但不可否认的是其冷启动问题和稀疏性问题。基于内容过滤的推荐方法可以解决这两个问题,两者的融合可以使推荐系统更加健壮和高效。

次线性有序标签划分

杰森·韦斯顿等人在2013年第30届国际机器学习大会上发表了题为“亚线性排序的标签划分”的论文。本文将推荐问题转化为多分类问题,解决了如何从神经网络的最后一个输出层找到概率最高的输出节点。

提示:

该算法有广泛的应用,如多文本排序。

算法描述

该算法的基本思想如下:

对于给定的样本x,根据训练样本的划分,将其划分为最可能集合p=g

取标签集q,分配给每个标签。标签被分成的子集在哪里

根据最终结果对l中的每个标签进行评分、计算和排序。

投入产出分工

输入样本的划分有两种方式,一种是加权层次划分器,其思想与加权K-means算法相同,而权重是通过根据标签的预测精度给训练样本xi到中心的距离cj赋予一个权重来获得的,另一种是加权嵌入划分器,它通过对训练样本进行变换,使具有相同标签的训练样本尽可能分成一个集合。实验结果表明,利用优化函数的分布。

对于测试输出的标签划分,本文也提到了两种方法。一种是设计一个优化函数,计算每个标签划分为一个分区后的损失,然后优化所有标签分区的整体损失。另一种是简单计算每个分区中标签出现的频率,选出最频繁的。实验表明,使用优化函数的分区方案是另一个的两倍。

基于深度学习的推荐系统

论文《深层神经网络用于YouTube推荐》由Covington P,Adams J,Sargin E等人在2016年第十届ACM RecSys上发表。此时YouTube推荐系统的核心算法是深度学习法。该方法将推荐问题转化为分类问题。比如用户看了一些视频后,用户最有可能看哪个视频?这是一个推荐问题,但是现在变成了在看了一些视频之后,用户需要预测下一个要看的视频是视频池中的哪个类别。但是,这个类别的数量非常大。对于用户C和用户行为C,语料库V中的视频I分为

用户c包含用户的位置、性别等信息,用户行为c包含观看视频、搜索视频等信息,u代表用户和用户行为信息在高维度上的映射,代表每个候选视频在高维度上的映射。

生成推荐候选集

如下图所示,推荐候选集是通过将推荐问题作为多类分类问题来处理而生成的。步骤如下:

用户的历史信息和其他特征。)被连接成向量,该向量被输入到由修改的线性单元组成的非线性多层感知器,以获得用户的兴趣特征。

在训练阶段,将所有用户的兴趣特征输入Softmax进行多分类训练,得到模型;

在预测阶段,计算用户兴趣特征与所有视频特征之间的相似度,通过对排名网络的最近邻搜索得到得分较高的k个视频。

种类

排序的目的是再次过滤候选集中的候选视频,选出最适合用户最有可能喜欢看的视频。本文中用于排序的神经网络的结构类似于生成推荐候选集的结构。唯一不需要的就是在最后一层用logistic回归对每个视频打分。由于候选集中的视频数量远远小于原始视频池中的视频数量,因此在这个过滤过程中会添加更多的视频特征和用户特征,从而更准确地推荐用户。推荐结果根据每个视频的评分进行排序,最后根据评分向用户推荐视频。

提示:

对于深度学习,它具有优秀的特征提取能力,可以学习多层次的特征,并提取视频信息和用户信息中隐藏的特征。类似YouTube的基于深度学习的推荐,首先通过深度候选生成模型,利用视频和用户的主要信息,从数百万个视频中找到数百个相关视频,然后通过深度排序模型,利用用户的视频和其他信息,从数百个视频中找到几十个最有可能受到用户欢迎的视频。这样大大增强了推荐系统中描述用户偏好的能力,描述的范围更广。

认为

从以上四篇论文可以看出,YouTube一直在尝试将最流行的技术应用到推荐系统中,并不断对系统进行升级和演进,使其能够在不同的环境中更好的选择最合适的解决方案。简而言之,多个模型有多个路径。

引用

针对YouTube的视频建议和发现:在视图图中随机漫步

YouTube视频推荐系统

评估相似性度量:orkut社交网络中的一项大规模研究

用于次线性排序的标签划分

深层神经网络为youtube推荐

1.《相关推荐 技术干货 | 细说YouTube推荐系统的变迁》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。

2.《相关推荐 技术干货 | 细说YouTube推荐系统的变迁》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。

3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/1663794.html