千人万面奇妙自见:爱奇艺短视频推荐技术中多兴趣召回技术的演变

标签: 爱奇艺 视频 技术 | 发表时间:2021-04-23 17:28 | 作者:爱奇艺技术产品团队
出处:https://www.infoq.cn

导 语

推荐系统的本质是信息过滤,多个信息漏斗将用户最感兴趣的内容逐步呈现在用户面前,如图1所示(《爱奇艺短视频推荐之粗排模型优化历程》)。召回阶段作为首个漏斗从多个维度将海量视频中用户可能感兴趣的内容滤出交给后续排序技术处理,它直接决定着后续推荐结果的效果上限。本文主要介绍爱奇艺随刻推荐团队多兴趣召回技术的发展历程。相比于其他召回技术,多兴趣召回技术能够同时挖掘出用户的多个潜在兴趣,在个性化推荐系统中突破传统的“千人千面”而达到“千人万面”效果。

图1 视频推荐系统主要流程[1]

01技术背景:如何召回“好苗子”,打破信息茧房

优秀的视频推荐系统可以精准地将视频分发给兴趣相匹配的用户,这个过程可以类比为优秀运动员经过层层选拔最终在世界大赛成功登顶,而召回阶段则相当于运动员年少时期的初次面对的市队选拔。

优秀的国家队教练固然业务水平精湛,但若没有天赋迥异的好苗子,也难以培养出世界级冠军选手;排序技术固然能够通过大量特征和精巧网络将效果提升,但若召回的所有视频本身质量不佳,那排序技术效果的上限将会提前锁死。因此,国家队教练需要多个省市的运动人才作为选拔来源,排序技术需要多个召回源作为待排序内容。

谈到召回技术,熟悉推荐的同学将举出诸多策略与算法,例如策略包括考虑内容关联的频繁项集挖掘Apriori等、考虑用户与内容相关性的召回itemCF等、基于协同过滤的召回SVD等;算法包括将内容变为embedding后再进行近邻检索的item2vec和node2vec、应用内容理解的CDML召回以及近年来兴起的GNN召回等。

图2 多兴趣召回主要流程[2]

如图2所示,多兴趣召回技术类似其他召回技术都依赖着用户过往的历史行为,但不同点在于多兴趣召回技术可以学习到用户的多个兴趣表示,将个性化推荐的“千人千面”升级为“千人万面”,每一个兴趣表示都能根据最近邻搜索得到相应的视频成为召回源。一方面,多兴趣召回技术符合多数用户拥有不同志趣和爱好的现实情况,能够让推荐结果精准且丰富,能够防止内容同质化带来观感疲劳;另一方面,除了挖掘用户的已有兴趣,多兴趣召回技术不断挖掘出用户自己从未发现的潜在新兴趣,防止传统推荐算法造成的“信息茧房”现象,让爱奇艺线上海量的文化资源呈现给用户。

同时,由于爱奇艺旗下丰富的产品矩阵,往往一个用户会同时使用包括爱奇艺基线、随刻、奇异果等多种产品。在多端用户行为混合训练的情况下,往往能够抽取出用户在不同端的不同兴趣、不同端用户的共同兴趣。这些兴趣往往能够帮助用户找到自己喜爱的社区与圈子,完成产品间的渗透打通和爱奇艺产品矩阵的复合生态建设。爱奇艺短视频推荐现在使用到的多兴趣召回技术有聚类多兴趣召回、MOE多兴趣召回、单激活多兴趣召回。本文将依次进行介绍。

02聚类多兴趣召回

聚类多兴趣召回的主要优点在于不用训练复杂的神经网络,只需利用线上其他深度学习的embedding即可形成多个兴趣向量(例如较为成熟的node2vec,item2vec等video embedding空间),时间和空间代价都较小。主要理论依据为KDD2020提出的兴趣聚类方法PinnerSage[3]。(是不是和PinSage名字很像,但它与图神经网络没有太大关系)。

PinnerSage聚类多兴趣召回是传统ii召回基础上结合聚类方法的新型策略。传统的ii召回中往往有两种做法:1,选择用户短期历史行为的每个视频,进行多次ANN查找选出近邻视频,这样的做法不仅时间成本高而且推出视频同质化严重。2,将用户短期历史行为的所有视频embedding进行pooling形成代表用户的user embedding,再进行ANN近邻查找,这样的方式能一定程度的融合信息减少时间空间代价,但很容易造成信息损失, pooling出的embedding如图3所示很可能差了十万八千里。

图3

PinnerSage则取两者之长,对用户历史行为中的视频进行聚类分组,pooling形成多个兴趣向量。聚类既避免了多次ANN带来的压力,也能一定程度上避免信息损失。PinnerSage 聚类多兴趣召回分为两步走:

a. 聚类过程。如图4所示,对用户观看过的所有视频进行聚类操作,Pinnersage聚类采用了hierarchical clustering聚类方法,并不需要像K-Means设置初始类别数,而是首先将每一个视频均看作一类,接下来每两类开始合并,若合并后组内variance增加最少则可以将两类合并为一类,直到variance超过阈值即停止。

图4

b. 取出embedding过程。PinnerSage依然不对类内视频embedding 取平均,而是选择类内的一个视频embedding作为类(兴趣簇)的代表,该视频embedding需满足与类内所有视频embedding距离之和最小。再利用这些代表用户兴趣的embedding们进行ANN即可。

聚类多兴趣召回通过简单的策略便形成了用户多个兴趣,时间代价较少。但由于依赖其他算法形成的embedding空间,学习到的多个兴趣embedding很容易有偏,推出内容趋于高热难以满足个性化。因此,团队继续向深度学习领域的多兴趣网络进发。

03MOE多兴趣召回

双塔模型是业界比较主流的召回模型,但是双塔模型在实际场景中效果有限。因此团队将双塔中的用户侧的塔结构进行修改,引入类似于MOE[4]的结构,提取多个向量表示用户潜在的兴趣,从而获得了极大提升。其中MOE是多目标学习中使用广泛的经典结构,根据数据进行分离训练多个专家模型,我们最终将多个专家模型的输出作为用户兴趣向量,通过与视频侧提取的向量分别计算内积得到最相似的一个用户向量参与损失的计算。

图5

MOE多塔结构如图5所示,左边为用户侧MOE多塔部分,右边为视频侧单塔部分。模型的实现细节包括:

a. 用户侧的输入主要是用户的偏好序列,包括用户偏好的视频id序列、上传者id序列与内容标签(tag)序列,序列特征经过embedding处理与average pooling操作后得到不同的向量,拼接之后组成MOE多塔的输入,经过MOE多塔计算后得到多个向量表示用户潜在的多个兴趣。

b. 视频侧为单塔结构,输入为用户交互过的视频id、上传者id与内容标签(tag)特征,经过embedding提取和拼接之后使用单塔结构提取信息。

c. 在loss计算上,由于召回是从千万级的视频库中寻找出用户可能感兴趣的几百条视频,因此实际样本中负样本空间十分巨大。为了增加模型对负样本的筛选能力和提升模型负采样的效率,我们在模型中使用batch内负采样,将batch内其他样本作为当前样本的负样本,同时使用focal loss损失函数来提升模型对难样本的识别能力。

经过修改之后的MOE多塔模型上线之后,单召回源的点击率和人均观看时长得到极大提升(全端CTR提升0.64%,召回源推出视频CTR比全端高出28%,展均播放时长比全端高出45%)。

经过修改之后的MOE多塔模型上线之后,单召回源的点击率和人均观看时长得到极大提升。但是MOE多塔共享底层的输入,仅仅使用简单的DNN网络提取不同的向量,导致多个塔之间的区分度比较低,多向量中冗余较多难以优化;此外用户序列特征中实际包含的位置信息对用户比较重要,当前模型难以利用,因此我们希望通过其他的网络来加以利用。

04单激活多兴趣召回

单激活多兴趣召回从19年开始便被工业界使用,其中最绕不开的是阿里提出的MIND[3],其利用胶囊网络对用户序列进行动态路由收集多兴趣的方法在测试集上取得爆炸效果,激起了整个工业界对多兴趣网络的探索热情。随刻推荐团队也进行了探索。

4.1 单激活多兴趣召回初版

基于MIND等网络的启发,团队进行了单激活多兴趣网络的初版探索,网络结构如图5所示。在MIND网络中,采用了胶囊网络来抓取用户的兴趣,胶囊网络可以很好地同时捕捉观看的序列顺序信息和视频间的相关性,但由于结构较为复杂计算开销较大,且观看顺序仅单个维度即可表示不需要网络对位置信息太过敏感,因此团队选择transformer结构进行代替以保证训练速度。

图6

大致流程为:

a. 截取用户观看视频id序列{V1,…VN}作为sample,第N+1个视频作为target输入网络,经过video embedding层后形成embedding序列E={E1,E2,..EN}。

b. E经过transformer构造的兴趣抽取层得到多个兴趣向量M,取|Mi|最大的兴趣向量与target视频的embedding进行sampled softmax loss负采样,因此每次训练实际上只激活一个通道的兴趣向量。

c. 模型训练好后在推理阶段,取出用户所有兴趣向量,逐个进行ANN检索得到召回结果。

初版虽然结构简单,但上线后效果较好,极大提升消费指标、视频覆盖度和多样性。然而初版也存在着不同兴趣向量召回结果重复度较高、特征较少、即时性差等问题,因此也产生了多个版本的演变。

4.2disagreement-regularzation多兴趣召回

4.2中兴趣向量间无任何约束,因此容易出现兴趣向量过于相似的问题,因此在损失函数上需要施加正则项。鉴于初版多兴趣召回主要部分为transformer,团队在不改变网络结构的情况下使用三种正则函数进行探索[4]。

图7

如图7所示,分别对学习到的视频embedding(公式1),Attention(公式2),兴趣向量(公式3)进行正则化约束。在实际生产环境中发现,直接对兴趣向量进行正则化约束能达到最优效果。

4.3 容量动态化多兴趣召回

不同用户往往呈现不同的兴趣发散性,因此兴趣向量数应该是一个弹性指标而非超参数,在4.1与4.2的基础上,如图8所示在网络结构中引入兴趣激活记录表。

图8

训练过程中每当用户有任何兴趣向量被激活时,记录表均会记录这次激活。推理阶段,回溯激活表情况,将用户未激活或激活较少的兴趣向量剔除,以达到兴趣数动态化的目的,从而匹配不同用户兴趣发散性存在差异的现实情况。

4.4 多模态特征多兴趣召回

4.1-4.3中,多兴趣召回仅使用到视频id特征,学习效果依然有限,因此在后续版本的发展中,将上传者和内容标签(tag)融入训练成为主要方向。如图9所示,为网络主要结构。

Transformer部分与4.1-4.3中大致相同,不同点在于训练样本加入上传者和内容标签(tag)特征后经过embedding和pooling部分再进入transformer中。值得注意的有两点:

loss部分依然只对视频id的embedding进行负采样(与MIND等结构不同),这样的目的是让视频id的全部embedding可以进入负采样中,而不用折中使用batch内负采样,能够让最终推理阶段主要使用video id embedding更加精准(推理阶段ANN部分不会使用tag与uploader)。一个视频往往有多个内容标签(tag),因此在对内容标签(tag)做embedding时需要对所有内容标签(tag)做embedding操作后进行一次pooling。

图9

4.5小结

如4.1-4.4所示,单激活多兴趣网络进行了多次演变过程,一次次改进后的应用带来了非常显著的效果,全端CTR显著提升2%,全端时长提升1.5%,人均播放提升1.5%;特别是在推出视频的多样性上,直接提升4%以上。

同时作为一个老少皆宜的内容平台,在爱奇艺一直存在着以家庭为单位,不同年龄段用户使用同一账号的情况,因此同一账号下的历史行为往往来自各个年龄阶段,用户历史行为的复杂性给推荐带来了难题。而单激活多兴趣网络的兴趣向量在学习过程的采样中具随机性、在数学呈现上具正交性,这就使得兴趣向量的搜索范围能够召回不同年龄段所喜爱的海量视频。

单激活多兴趣网络现在也是学术热点之一,希望能够有更多的研究者提出新的idea让推荐技术继续大放异彩。

05总结与展望

本文已经大致展现了爱奇艺短视频推荐召回技术中多兴趣召回的发展情况。多兴趣召回最大的亮点,在于可以抽取一个用户的多种兴趣,让曾经“千人千面”的画像迈入“千人万面”的高维空间,让推荐结果同时提升精准度和丰富度,同时也有兴趣试探,避免用户走入信息茧房。同时该技术也在爱奇艺产品矩阵复合生态建设与用户历史行为复杂性问题解决方案的前路上一直探索。

本文也认为多兴趣召回依然有可以优化的方向:

在行为序列的选取上,大部分的多兴趣策略与网络依然只考虑到用户的观看历史,如果能够运用事件知识图谱,将用户在平台上的搜索、订阅等行为一起纳入训练数据中,应该可以抓取用户更多的兴趣与倾向。在负反馈信息的处理上,多兴趣召回尚无应对之策。视频中的许多点踩、消极评论、不喜欢、取消关注等行为尚且未融入到多兴趣召回中,这些信息对指导兴趣网络的也至关重要,后期该方向将成为重点工作。在用户的静态信息与偏好特征的整合上,亦有很大的应用空间。这部分特征的组合能够很好地和排序目标对齐,提升召回源质量和排序效果上限。

参考文献

[1] 2021-2-26期,如何提升链路目标一致性?爱奇艺短视频推荐之粗排模型优化历程

[2] AdityaPal, et al. PinnerSage: Multi-Modal User Embedding Framework for Recommendations at Pinterest. KDD 2020

[3] Jiaqi Ma, et al. Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts. KDD 2018

[4] Yukuo Cen, et al. Controllable Multi-Interest Framework for Recommendation.KDD 2020.

[5] Chao Li, et al.Multi-Interest Network with Dynamic Routing for Recommendation at Tmall. CIKM 2019.

[6] Jian Li, et al. Multi-Head Attention with Disagreement Regularization. EMNLP 2018

相关 [爱奇艺 视频 技术] 推荐:

爱奇艺短视频打标签技术解析

- - IT瘾-dev
写在前面 最近几年出现了很多以短视频的创作和分发作为主打的手机应用软件,这极大地丰富了文本和图像之外的信息创作和分发方式. 这些短视频应用自从问世以后,便迅速地占领了市场,得到了广大用户的青睐. 目前,短视频正逐渐成为互联网上的一种重要的信息传播方式,由此产生了大量的短视频数据. 为了更好地利用短视频数据,提升短视频的创作和分发效果及效率,需要为短视频打上各种有用的标签,这些标签可以作为短视频所记录的内容的概括和总结.

爱奇艺短视频分类技术解析

- - 机器之心
近年来,短视频领域一直广受关注,且发展迅速. 每天有大量UGC短视频被生产、分发和消费,为生产系统带来了巨大的压力,其中的难点之一就是为每个短视频快速、准确地打上标签. 为了解决人工编辑的时效和积压问题,自动化标签技术成为各大内容领域公司都非常关注的关键课题. 短视频大规模层次分类作为内容理解技术的一个重要方向,为爱奇艺的短视频智能分发业务提供着强力支持,其输出被称为“类型标签”.

千人万面奇妙自见:爱奇艺短视频推荐技术中多兴趣召回技术的演变

- - InfoQ推荐
推荐系统的本质是信息过滤,多个信息漏斗将用户最感兴趣的内容逐步呈现在用户面前,如图1所示(《爱奇艺短视频推荐之粗排模型优化历程》). 召回阶段作为首个漏斗从多个维度将海量视频中用户可能感兴趣的内容滤出交给后续排序技术处理,它直接决定着后续推荐结果的效果上限. 本文主要介绍爱奇艺随刻推荐团队多兴趣召回技术的发展历程.

OCR技术在爱奇艺的应用实践及演进

- - 掘金 后端
随着人工智能的热度上升,图像识别这一细分领域也渐渐被人们所关注. 在很多公司的业务中,有很多需要对图片进行识别的需求. 为了帮助业务实现对这些图片、文档的识别和结构化,业界进行了一系列的实践和探索,最终确定了一些可行的方法,总结了在实践过程中可能遇到的问题和难点. 为了更好地了解OCR技术在爱奇艺的应用实践,最近,InfoQ“大咖说”栏目邀请爱奇艺智能平台部助理研究员——Harlon 进行了一场直播分享,结合目前的业务需求,为我们陈述了爱奇艺在探索OCR技术发展过程中遇到的痛点和难点,以及识别技术的一些细节,以下是采访实录.

前沿技术是否前沿?爱奇艺首席科学家揭秘视链技术

- - 雷锋网
近日一则围绕“ 22岁、6亿估值、秒杀Google”等关键词进行宣传的创业圈新闻在业内引起了广泛讨论. 众多互联网媒体瞬间化身“八卦小报”,对话题主角金证济苍,展开了360度无死角的人肉搜索,并爆出Venvy Inc 官网内容造假、高管资料伪造等猛料. 也有媒体对于“视链”技术进行了质疑,并称其不过是营销噱头而已,并没有所说的那般前沿.

爱奇艺视频后台从“单兵作战”到“团队协作”的微服务实践

- - DockOne.io
系统越做越大,功能越加越多,我们是否有如下经历:. 一次小的需求,评估由此产生的影响成本超过开发需求本身. 系统几经交接或升级,接口文档丢失或跟代码严重不符. 每天疲于排查线上问题和修复线上数据,没有精力代码优化. 由于创建/开发/部署新服务的成本,不断的将无关的功能添加到臃肿的服务. 线上服务一个功能或者中间件的中断,导致整个系统不能提供服务.

[酷工作] [爱奇艺-成都] 招聘:技术总监(算法方向)/算法工程师

- - V2EX
爱奇艺目前 D 轮啦,研发中心在北京以及上海,目前在成都搭建新的研发中心,欢迎有兴趣的小伙伴来联系我哈. 1.负责 AI 算法团队的管理,研发和建立工作,方向包括计算机视觉、音视频编解码、自然语言处理、机器学习、深度学习、搜索、推荐等方面;. 2.基于产品需求和用户场景设计技术方案、包括算法选型、稳定可靠的工程架构,实用性调优等,并根据业务发展做好系统整体容量规划;.

一年亏损 37 亿的爱奇艺申请上市,这 9 张图告诉你中国互联网视频行业现在是什么样子

- - 好奇心日报
上线的第 8 个年头,爱奇艺终于要从百度拆出来单独上市了. 2 月 27 日,爱奇艺正式向美国证券交易委员会(SEC) 提交招股说明书,计划在纳斯达克上市,公开募集资金 15 亿美元,证券代码“IQ”. 爱奇艺一般被认为是中国最成功的视频网站. 腾讯、优酷土豆和爱奇艺,中国最大的三家视频网站背后是腾讯、阿里和百度贯穿始终、相互竞争的生意.

技术资讯 | 浅谈相似视频检索技术

- - IT瘾-tuicool
近几年视频成为了人们记录和分享生活的主要手段. 像抖音、快手等视频应用,越来越受到年轻人的喜爱. 无论是活跃用户的数量,还是用户的视频创作量,每年都在显著增加. 据相关统计,每分钟视频网站就要增加近400小时的内容[1]. 在这些新上传视频中,相似的视频往往不在少数. 如果能够检测出其中相似的视频,对实现.

网络视频技术问答(11):CDN如何为视频网站服务?

- - 钛媒体TMTpost
CDN是Content delivery network的缩写,即内容分发网络,它具有下图所示的结构. 而随着网站规模的扩大,自建CDN也是一种选择. 问:CDN如何为视频网站服务. 答:CDN是Content delivery network的缩写,即内容分发网络. 如上图所示,CDN由两种服务器组成:.