感谢阿里巴巴集团马恩奇的写作和分享。
提升视频搜索排序流量分发效率是实践文娱战略的关键在消费升级的背景下,文化娱乐已经成为人们生活中非常重要的一部分。马老师曾经说过:阿里巴巴未来的大发展有两个策略,一个是健康,一个是幸福。文化娱乐极大地提升了中国网民的快乐感。作为文化娱乐的重要载体,如何做好用户与视频内容的衔接,对阿里娱乐战略思想的实践至关重要。
短期内,如何做好用户和视频内容的衔接,是在提高用户和视频内容理解的前提下,提高流量分配的效率。从长远来看,通过健康的流量分配生态,内容制作者愿意生产更多高质量的内容,抓住用户的兴趣点,实现流量分配效率的提高,并通过视频内容的准确分配进一步吸引更多的用户,从而引导内容制作者有针对性地生产高质量的内容,实现内容流量分配生态的健康发展。优酷搜索是流量分配的核心入口。如何提高流量分配的效率,对于分配生态的健康运行和用户粘性的提高至关重要。其中,搜索排名是提高流量分配效率的核心场景。
利用表征学习探索广度上的增益特征和深度特征的结合能力,提高流量分配效率
视频搜索排名的三个基本要素是用户、搜索意图和视频内容。如何通过不同维度的数据表达用户、搜索意图和视频内容,是提高流量分配效率的核心。传统的机器学习方法通过长期的数据挖掘经验优化特征工程,从广度和深度上提高预测效果。具体而言,在广度方面,可以通过寻找能够产生增益的特征来提高模型的预测能力,在深度方面,可以通过组合具有高重要性的特征来提高模型的预测能力。无论从广度还是深度来看,特色工程在优化后期都会面临投入产出比指数下降的挑战,通过大量资源投入产出的特点来提高模型效果非常有限。
优酷与iDST合作,通过表征学习探索广度上的收获特征和深度上的深度组合特征。在搜索转换推广空非常有限的情况下,整体搜索用户人均观看时间和UPGC搜索用户人均观看时间都有明显提高,用户跳出率也有所下降。目前,表象学习已经在优酷个性化搜索排名中得到充分应用。
个性化搜索排名是通过策略组合和用户个体性和共性的特征表达来实现的
个性化搜索排名有两个核心:用户的个体兴趣表达和用户组的共同兴趣表达。从以上两个角度来看,表征学习通过超高维稀疏编码表达个体用户,利用深度神经网络拟合群体共性。具体来说,基于用户id和视频观看序列的特征,对id和视频观看序列进行编码,然后进行模态融合,生成个体用户的嵌入表达式,即用户的表示向量,这是个性化搜索排名的重要输入特征。实践证明,用户的表征向量能够捕捉到普遍意向下个体的差异化兴趣。在视频的维度表达中,视频的表征表达主要是通过视频id、视频标题文本、视频质量和热度等特征生成的。在视频搜索排名中,视频表达是核心,也是用户和搜索意图表达的基础。通过表示用户的相对用户id和统计特征,更有助于表达用户在视频中隐藏的兴趣点。
搜索排序分为检索、粗排序和精排序三个阶段。为了在排序中最大化个性化视频候选集,在检索阶段,集成了Representation Learning作为召回策略之一,在粗排序阶段引入个性化视频i2i数据,以保证在精排序阶段有更大的空范围,提高个性化排序效果。
利用压缩编码技术实现特征降维和改善长尾视频曝光
在特征表达层面,为了更好地表达用户,保证个体的独立性,原始特征主要采用One-Hot编码,将特征域中的id特征、文本特征和质量特征映射到超高维度,然后在保证个体差异的前提下,通过多模态压缩编码技术对高维特征进行压缩。结合iDST自主开发的稀疏全连接层,可以在最大程度保持个体差异化特征信息的前提下,压缩特征和模型权重系数。在视频特征的维度上,另一个挑战是,当流行视频的特征丰富时,长尾视频很容易淹没在流行视频中。为了解决这个问题,引入了附属编码。利用相似视频的i2i数据,冷门视频和热门视频共享权重,可以尽可能缓解行为数据对长尾冷门视频的泛滥效应。压缩编码可以大大降低模型的复杂度,加快模型的迭代效率,也是特征域间多模态融合的基础。
域间独立特征编码网络,多模态融合特征域输出向量
如上图所示,第一层是特征域编码层,基于前面提到的三个要素:用户、搜索意图、视频。在用户维度中,用户id字段和用户观看视频序列字段是分开的。搜索意图维度分为搜索词id字段、搜索词视频表达字段和文本编码字段。视频维度分为视频统计特征域、视频文本编码域和视频i2i域。共有8个独立的域(上图以4个特征域为例)。
第二层和第三层中不同特征域之间的网络结构相互独立。第一层的高维特征域通过稀疏编码优化的全连通层进行约简,高维信息投影到低维向量空。然后通过第三全连接层对域内信息进行两次编码,输出域内特征向量。然后,通过第四连接层,将域间的id特征向量、行为特征向量、文本特征向量和观看序列特征向量与多模态特征向量融合。之后通过两层全连通网络实现给定用户和搜索意图下各视频的排名得分。
针对冷热视频采样的特征编码,结合网络参数调整技巧,快速迭代地提高模型效果和鲁棒性
特征处理和网络模型参数调整是提高模型鲁棒性和预测效果的关键。与其他场景相比,视频的区别在于,用户在冷热视频的分布上有很大的差异。深度模型完全学习的前提是样本数据大于模型参数。在实践中,我们发现即使样本数据大于模型参数,模型对冷门视频的效果也无法保证,所以我们增加了冷门视频的采样。采样编码结合特征分布是提高模型效果的关键。同样在特征编码中,使用一热编码要求我们更加关注影响整体效果的关键部分。头部流行视频能否有效离散化,进而一热编码,对模型效果影响很大。
在网络参数调整方面,首先是批量的设置。在前期训练阶段,我们尽量在视频内存允许的情况下增加批量。主要目的是在训练初期,需要通过模型的快速迭代,对数据集分布和模型的损失收敛性做出粗略的判断。过大的批量可能导致模型参数陷入局部最优解。在训练初期,可以追求一定程度的过拟合,增加对模型参数变化过程的信息控制。随着训练迭代次数的增加,在对数据和参数变化有了大致的了解后,通过减小批量和学习速率来对模型进行微调。通过比较训练集和测试集之间的损失,并加入Dropout,可以确定模型是否收敛,并进一步权衡模型在训练集和测试集中的效果,以避免过拟合。传统CNN强调模型权重可视化后具有平滑特性。在实践中,并没有发现平滑特异性的权重与模型的预测效果有很大的相关性。表征学习追求的目标是在最大化与输入相关的信息和追求良好的属性之间进行权衡。我们实际上通过特征划分来减少模型的参数,通过增加独立域中输出节点的数量来保证信息的有效表示。在视频内存允许的范围内,我们会在初始阶段尽量使每一层的节点数最大化,保证上层信息的有效承载。经过后期的微调和损耗随迭代的收敛曲线,最终确定域内每层节点数为16 ~ 64个。
通过REPL优化平台流程实现特征工程、模型训练和预测评估
阿里巴巴集团的线下大数据处理任务基本都是基于ODPS平台,但是深度学习相关的模型训练和调优往往在GPU上更方便高效。IDST深度学习REPL项目团队探索了基于电子商务数据的深度学习表征学习的特征提取能力,并将提取的REPL特征应用于电子商务搜索和推荐等领域,取得了良好的效果。在这些探索的基础上,iDST算法、产品和工程团队对相关流程进行了梳理和抽象,实现了ODPS离线处理任务和REPL相关GPU训练任务的模块化集成调度,搭建了深度学习REPL平台。在REPL平台上,用户可以方便地使用REPL相关功能,通过前端页面或API深入学习REPL相关的特征工程、模型训练和预测评估工作。同时,该平台提供REPL特征和模型管理功能,用户可以基于自己的特征模型构建所需的模型预测服务。总之,该平台集成了一些与REPL相关的流程和功能,用户可以方便地使用它们,并以较低的成本在业务场景中探索、实验和调整与REPL相关的应用。
离线和在线模型之间的分离和搜索架构的集成
所有深度学习模型都具有高输入维数和复杂的网络结构,因此完成在线前向网络预测将面临耗时响应的挑战。对于复杂网络,即使使用GPU也很难保证在线预测性能。基于这类问题,我们对整个神经网络进行了等效拆分,离线部分大部分计算工作使用GPU。针对不同的特征域生成中间特征向量,将不同特征域的特征向量以一定的形式叠加,等价于实现了整个预测网络。由于少量网络的在线实现,大大减轻了整个前向网络预测的耗时增加。
一般来说,搜索架构主要由三部分组成:QP、标准普尔和索引。QP负责搜索意图,索引负责倒排和前排索引和评分。简而言之,当搜索开始时,服务提供商呼叫QP以获得与搜索意图相关的信息,然后将请求发送给搜索者。评分插件对每个召回的视频Doc进行评分和排序。
表象学习的工程实现如下:离线计算的用户表象向量、搜索词表象向量、模型文件由QP服务提供,视频表象向量放在前排。每次发起请求时,服务点都会调用QP向搜索者发送用户域搜索词表示向量和模型文件。搜索器的算法插件在得到用户、搜索词、视频表示向量和模型文件后,通过在线模型预测生成每个视频Doc的评分,进行排序。
上线后,通过ABtest测试,总体来看,人均TS(搜索生成的总TS/搜索用户数)增长了4.7%,用户跳出率(用户搜索后没有任何有效点击)下降了8.95%。据UPGC介绍,人均TS增长了11.4%,表征学习主要解决个性化搜索的效率问题。UPGC在个性化方面有较大的空,这也是UPGC有明显改善效果的原因。
标签
随着深度学习的成熟和工业上取得的成就,深度学习与传统机器学习的融合也受到广泛关注。利用传统的机器学习输出特征,深度学习模型预测,或深度学习输出特征,传统的机器学习作为模型预测越来越受欢迎。这使得特征和模型之间的界限越来越模糊。特征就是模型,模型就是特征。我们还尝试基于表征学习输出特征,然后用GBDT融合上层,用GBDT叶节点作为特征,用表征学习融合。模型的预测效果得到了不同程度的提高。
1.《representation Representation Learning在优酷个性化搜索排序中的应用》援引自互联网,旨在传递更多网络信息知识,仅代表作者本人观点,与本网站无关,侵删请联系页脚下方联系方式。
2.《representation Representation Learning在优酷个性化搜索排序中的应用》仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证。
3.文章转载时请保留本站内容来源地址,https://www.lu-xu.com/guonei/886856.html