爱奇艺短视频分类技术解析

标签： 爱奇艺 视频分类 | 发表时间：2019-06-12 11:38 | 作者：爱奇艺技术产品团队

出处：https://www.jiqizhixin.com/

简介

近年来，短视频领域一直广受关注，且发展迅速。每天有大量UGC短视频被生产、分发和消费，为生产系统带来了巨大的压力，其中的难点之一就是为每个短视频快速、准确地打上标签。为了解决人工编辑的时效和积压问题，自动化标签技术成为各大内容领域公司都非常关注的关键课题。短视频大规模层次分类作为内容理解技术的一个重要方向，为爱奇艺的短视频智能分发业务提供着强力支持，其输出被称为“类型标签”。

以下是我们对一条爱奇艺短视频的分类效果：

算法结果：游戏-题材-角色扮演，与人工结果一致。其实“漫威”、“蜘蛛侠”这类IP的作品既可能是“影视”也可能是“游戏”，或者其他周边，如果缺乏背景知识，人工也不容易做出准确的分类，但是模型由于见到了足够多的样本，反而比单个人工有更大概率做出正确判断，在一定程度上体现了集体智慧和算法的优势。

类型标签在爱奇艺内部有着广泛的应用。

在短视频生产领域，类型标签从视频的生成、准入、审核、标注等多个方面发挥着重要作用。

标签自动化：部分标签的准确率已经达到95%以上，这部分标签已经用算法结果替代人工标注，减少了大量标注人力，提高了视频生产效率；
频道自动化：目前的频道由上传者填写，上传者会投机取巧乱填频道导致频道混乱，影响用户的使用体验，使用类型标签替换频道，提升了频道的分类准确率。

由于准确率很高，短视频生产系统乐高已经部分将自动化标签代替人工标签，并推送到各个业务线，支持着大量业务的智能运营策略。

在个性化推荐领域，已使用算法生成的类型标签全面替代人工标注的频道，成为推荐系统最重要的基础数据之一，在以下的策略中发挥了重要作用。

多样性控制：使用标签完成多样性控制，减少相似内容对用户带来的疲劳，提升播放时长等关键业务指标和多样性等生态指标；
用户画像：基于标签完善用户的长期兴趣和短期兴趣，提升用户画像的完整性、准确性和可解释性；
召回：增强无用户行为的新视频的分发能力，提升用户兴趣探索阶段的泛化性，提升用户的负向兴趣过滤的泛化性，从而提升用户体验；
排序：基于画像的用户兴趣和视频类型标签作为模型的特征，增强排序模型的排序效果。

本文将详细介绍爱奇艺短视频大规模层次分类算法。

技术难点

分类体系复杂

短视频分类体系是一棵人工精心制定的层次结构，体系和规则都比较复杂：层级最少有3级，最多有5级，总计近800个有效类别，类别间有互斥和共同出现的需求。

需要文本、图像、生态信息等多模态特征综合判断

短视频具有标题、描述、封面图、视频、音频等媒体信息。同时，一个短视频也不一定是独立存在的，它可能来自一个影视、综艺片段，它的上传者可能是一个垂直领域的内容贡献者，所以，关联正片、视频来源、上传者等信息对分类也可能有帮助。

解决方案

短视频分类可以分为特征表示(Feature Representation) 和层次分类(Hierarchical Classification) 两个模块，前者基于多模态特征建模短视频的整体表达（在我们的模型中通过Feature Representation和Representation Fusion两个子网络级联建模完成），后者基于前者完成分类任务。我们模型的整体结构如下图：

下文将分别介绍这两个模块。

特征表示模块

短视频的特征种类和形态各异，只有正确使用这些信息才能提升模型效果的天花板，下文将介绍各种特征表示的建模方式以及融合方式。

文本表示

短视频一般都有一个代表其视频意义的简短标题和更为详细的描述信息，通过对这些人工抽象出的文本信息进行分类会比直接从视频学习出分类更容易。下文将首先介绍业界常见的文本表建模方式，然后分享在我们任务中采用的方案。

业界常见建模方式：

1.BOW

Bag-of-words model忽略掉文档的语法和语序等要素，将其仅仅看作是若干个词汇的集合，每个单词的出现都是独立的，由一组无序的单词(words)来表达。实际操作上可以直接使用线性分类（单层NN，下左图）或者嵌入到一个词向量空间中进行AVG等操作后再进行分类（CBOW，多层NN，下右图）。由于模型假设文档是一个词袋，忽略了出现的顺序和组合，所以在构建特征时，可以考虑将表示了词组的ngram和词共现的组合特征放入模型中，提高模型的效果。

优点：建模容易，性能好，在使用了大量人工构造的特征后也可以达到极佳的效果。

缺点：过渡依赖人工特征的构造，构造的人工特征可能因为过大，在模型训练上带来困难。

2.CNN

利用CNN对文本建模表示进行分类是源自图像领域CNN取得的巨大成功，但是在文本领域仅用CNN进行文本建模效果并不突出。CNN通过不同大小的filter对有序的词向量进行卷积操作，以期望模型能够从中学到不同大小的ngram信息，并且通过pooling操作（一般是max-pooling），找到最强的信号，作为该文本的表示。

优点：建模比较容易，性能不差。

缺点：模型效果上限较低，对长距离共现信息建模较差。

3.RNN

利用RNN（GRU/LSTM）进行文本建模，理论上具有最高的天花板，在实操上效果也介于CNN和精选了人工特征的BOW，以LSTM为例，其不仅对词序敏感，并且具有长短记忆功能，能够将短距离的ngram信息和长距离的共现信息学习到。

优点：模型效果上限高，效果较好。

缺点：建模和训练较难，运行时间慢，在大数据集训练实用性不高。

4.Attention

使用Attention可以对长距离的共现信息进行建模，并且能够识别整个序列中最为关注的部分，该技术可以和上述的CNN和RNN这种与序列有关的技术配合使用，能够取得更好的效果，下图是典型的基于点积的（多头）注意力机制。

优点：建模难度一般（Attention实现方式多种多样），几乎总是能够提升模型效果。

缺点：无明显缺点，可以和其他模型共用。

我们的建模方式：

权衡模型的执行效率和效果，最终类型标签采用的是BOW和CNN+Attention方式完成文本表示的建模。

1.CBOW与人工特征构造

前面已经提到BOW在使用了大量人工构造的特征后也可以达到极佳的效果，所以我们也尝试了很多人工/机器构造的特征：

(1) 字、词特征，用以提高模型的泛化能力

(2) Ngram特征，提供片段特征

(3) 词对特征，提供远距离组合特征

(4) 经过gbdt学习到的组合特征，更高维的组合特征

(5) 一些ID类的离散特征我们也一起和字和词组合到一起

2.带位置信息的CNN

普通的TextCNN使用的Max Pooling是全文进行，忽略了文本表达的顺序信息，我们将Max Pooling以一定步长进行，提取出每个位置上的文本表示。

3.Self-Attention

基于CNN提取出的带位置信息的文本表示，我们加入Attention结构，组合不同位置的文本表示，并且让模型识别应该关注哪个部分。

02 图像表示

短视频数据存在的文不对题、标题描述类型区分力弱的问题，这些问题都对模型的学习带来较大的困难。封面图作为从短视频中精选的一帧，能够在一定程度上代表短视频主题的意义，并且与文本具有互补性，如果能够从其中识别图像表征，补充到类型标签分类任务，应该能够提升模型的分类效果。

表达融合方式：

对图像进行表征，并融合到分类模型中，目前业界非常流行的做法是基于预训练的ImageNet模型在训练数据较少的目标任务上进行迁移学习，有3种方式：

1. 特征抽取

实现方式：把ImageNet预训练的模型作为特征抽取器，将模型的某一层或者某几层特征作为类型标签模型特征提取源。
优点：预训练模型容易获取，不需要训练模型，只需要进行特征抽取，上线速度快。
缺点：模型效果差，需要选择抽取那一层的输出作为抽取的特征，需要保留的特征如果很多的话，特征保存的开销会很大。

2. FineTune+特征抽取

实现方式：把ImageNet预训练的模型以类型标签为目标进行FineTune，然后将模型的某一层或者某几层特征作为类型标签模型特征提取源（因训练目标一致，一般选择最后一层即可达到较好的效果）。
优点：模型效果好，输出的特征维度低，容易储存。
缺点：FineTune耗时较大。

3. 模型融合

实现方式：把ImageNet预训练的模型嵌入到类型标签的模型当中，让图像的表示和其他特征的表示同时进行训练。
优点：效果最好，End2End完成最终的上线模型。
缺点：模型训练调参困难，并且耗时巨大。

基于上述3种方式的介绍和分析，我们尝试了1、2两种方式，最终采纳了第2种方式。

模型选择：

图像模型的好坏直接影响到最终提取的图像特征的效果，需要选择一个效果与效率都很高的模型来完成我们的任务，在项目中我们尝试了ResNet50和Xception两个模型，并且最终选择后者，后者在我们的场景中训练、预测耗时接近，Accuracy高3%。

特征融合：

通过上述不同的特征表达方式，每一种特征都被映射为了一个向量，一种好的特征融合方式可以提升表示的整体效果，为此我们尝试了3种方案，并最终采用了LMF模型。

1.Concatenate

顾名思义，这种方式就是将每种表达连接到一起后连接全连接学习整体的表达，这种方式简单，并且能够提供一个不错的基线。

2.CentralNet[6]

该模型借助多任务对每个模态的表达进行约束，以期Fusion后的表达能够获取更好的泛化能力，相对于Concatenate有1%的效果提升，模型示例如下：

3.LMF[7]

LMF(Low-rank Multimodal Fusion)通过将N个模态的外积运算近似等价为内积和按位相乘的运算实现特征的全组合，相对于CentralNet有0.2%的效果提升，模型示例如下：

层次分类模块

下文将首先介绍业界常见层次分类建模方式，然后分享在我们任务中采用的方案。

业界常见建模方式：

对于层次分类，业界常见的有4大类方法。

1.弹珠机模型

分类树的每个非叶子节点都有一个独立的模型，利用分类信息做数据的划分。优点是扩展性好，但是由于仅从样本维度使用层次信息，未能共享特征表达，而且模型数量和层次结构体系对应，在我们的应用场景中，需要数量巨大的独立模型，代表论文[1]。以下图为例，预测过程为：

(1) 模型1预测为影视

(2) 模型2预测为电视剧

(3) 模型3、模型4分别预测为古装和解读

2.级联策略

低层级模型的输出作为高层级模型的特征，仅从分类结果维度使用层次信息，信息利用率低，实验效果不佳。代表论文[2],[3]。

3.正则化约束

通过正则化约束，通过让有上下级关系的分类模型的参数具有符合该正则化约束的相似性，正则化方式通过人工先验知识确定，无法让模型学习，正则化罚项超参也需要人工调整，实验代价大，效果不佳。代表论文[4]。

4.多任务

将各层级分类的多个任务合并，以共享模型参数方式学习模型的层次结构，共享样本信息和模型参数，使用合并的Loss驱动模型调整参数，完成层次结构信息的使用。代表论文[5]。

我们的解决方案：DHMCN

(Dense Hierarchical Multilabel Classification Network)

结合实际应用场景，经过多次迭代升级，形成了最终的解决方案。

V1：上文提到的多任务模型（HMC）：其核心思想可以简化为采用多任务来分别学习一级、叶子的global和local表示。

V2：借鉴DenseNet的思想，尝试让层级间的连接更加的丰富，让模型更加容易收敛，而不会陷入局部最优解。下图是一个可视化的解释：

下图为我们构建的基于多任务的层次分类网络：

其中：

• X是短视频的表达，具体构建方式前文已经介绍

• A_G¹和A_G²分别表示Global的1级和末级分类的隐层表达，P_G表示Global（所有）的分类概率

• A_L¹和A_L²分别表示Local的1级和末级的分类的隐层表达，P_L¹和P_L²分别表示1级和末级分类的概率

• 训练的Loss由P_G，P_L¹和P_L²三者与GroundTruth计算交叉熵得出

• P_F表示合并了Local和Global的最终分类概率

V3：借鉴级联策略，用一级表示形成权重去指导叶子节点的分类，这样叶子节点就只用专注在某一级的内部去分类，相当于把其他无关的分类全mask掉。

这是一个端到端的自动学习，我们通过可视化权重，发现学习到的Reweight Vector符合我们的预期：模型在预测出一级分类为19号分类时发现应该提升该分类对应的叶子分类的置信度（如下图）。

后续工作

1. 对于长度较短的短视频，将引入视频和音频特征，保证线上服务性能的情况下提升分类效果

2. 对于样本较少的分类，将引入用户搜索、推荐Session行为进行训练获取初始化的短视频表达，然后基于该表达继续训练

3. 更加充分的使用视频之间的关系进行训练（同一专辑、剧集、综艺、UP主等）

参考文献

[1] S. Dumais and H. Chen. Hierarchical classification of web content. In ACM SIGIR, 2000.

[2] P.N. Bennett and N. Nguyen. Refined experts: improving classification in large taxonomies. In SIGIR, 2009.

[3] Tengke Xiong and Putra Manggala. Hierarchical Classification with Hierarchical Attention Networks. In KDD, 2018.

[4] Siddharth Gopal and Yiming Yang. 2013. Recursive regularization for large-scale classification with hierarchical and graphical dependencies. In KDD. 257–265.

[5] J. Wehrmann, R. Cerri, and R. C. Barros. Hierarchical multi-label classification networks. Proceedings of the 35th International Conference on Machine Learning (ICML), pages 5075–5084, 2018.

[6] V. Vielzeuf, A. Lechervy, S. Pateux, and F. Jurie. Centralnet: a multilayer approach for multimodal fusion. In ECCV Workshop, 2018.

[7] Zhun Liu, Ying Shen, Varun Bharadhwaj Lakshminarasimhan, Paul Pu Liang, AmirAli Bagher Zadeh, and Louis-Philippe Morency. 2018. Efficient lowrank multimodal fusion with modality-specific factors. In Proceedings of the 56th Annual Meeting of the Associatio

爱奇艺短视频分类技术解析

- - 机器之心

近年来，短视频领域一直广受关注，且发展迅速. 每天有大量UGC短视频被生产、分发和消费，为生产系统带来了巨大的压力，其中的难点之一就是为每个短视频快速、准确地打上标签. 为了解决人工编辑的时效和积压问题，自动化标签技术成为各大内容领域公司都非常关注的关键课题. 短视频大规模层次分类作为内容理解技术的一个重要方向，为爱奇艺的短视频智能分发业务提供着强力支持，其输出被称为“类型标签”.

爱奇艺短视频打标签技术解析

- - IT瘾-dev

写在前面最近几年出现了很多以短视频的创作和分发作为主打的手机应用软件，这极大地丰富了文本和图像之外的信息创作和分发方式. 这些短视频应用自从问世以后，便迅速地占领了市场，得到了广大用户的青睐. 目前，短视频正逐渐成为互联网上的一种重要的信息传播方式，由此产生了大量的短视频数据. 为了更好地利用短视频数据，提升短视频的创作和分发效果及效率，需要为短视频打上各种有用的标签，这些标签可以作为短视频所记录的内容的概括和总结.

爱奇艺视频后台从“单兵作战”到“团队协作”的微服务实践

- - DockOne.io

系统越做越大，功能越加越多，我们是否有如下经历：. 一次小的需求，评估由此产生的影响成本超过开发需求本身. 系统几经交接或升级，接口文档丢失或跟代码严重不符. 每天疲于排查线上问题和修复线上数据，没有精力代码优化. 由于创建/开发/部署新服务的成本，不断的将无关的功能添加到臃肿的服务. 线上服务一个功能或者中间件的中断，导致整个系统不能提供服务.

一年亏损 37 亿的爱奇艺申请上市，这 9 张图告诉你中国互联网视频行业现在是什么样子

- - 好奇心日报

上线的第 8 个年头，爱奇艺终于要从百度拆出来单独上市了. 2 月 27 日，爱奇艺正式向美国证券交易委员会（SEC）提交招股说明书，计划在纳斯达克上市，公开募集资金 15 亿美元，证券代码“IQ”. 爱奇艺一般被认为是中国最成功的视频网站. 腾讯、优酷土豆和爱奇艺，中国最大的三家视频网站背后是腾讯、阿里和百度贯穿始终、相互竞争的生意.

千人万面奇妙自见：爱奇艺短视频推荐技术中多兴趣召回技术的演变

- - InfoQ推荐

推荐系统的本质是信息过滤，多个信息漏斗将用户最感兴趣的内容逐步呈现在用户面前，如图1所示（《爱奇艺短视频推荐之粗排模型优化历程》）. 召回阶段作为首个漏斗从多个维度将海量视频中用户可能感兴趣的内容滤出交给后续排序技术处理，它直接决定着后续推荐结果的效果上限. 本文主要介绍爱奇艺随刻推荐团队多兴趣召回技术的发展历程.

2015年爱奇艺营收52.9亿运营亏损23.8亿

- - 199IT互联网数据中心

中国网络视频领域正发生微妙变化. 就在上周，合一集团（优酷土豆）宣布与阿里巴巴集团已完成合并交易，正式成阿里巴巴旗下全资子公司，优酷土豆已经正式从美股市场退市. 优酷土豆CEO古永锵表示，公司选择私有化目的有三个，回归国内资本市场，与阿里联动、超越纽约，现在优酷土豆已启动国内上市计划，目标是3年之内在国内资本市场上市.

爱奇艺微服务监控的探索与实践

- - DockOne.io

作为一线程序猿，是否有过类似经历. 新接手一个系统，各接口入口流量是多少，又是哪些业务方在调用. 系统大量异常报警，如何快速锁定影响范围，恢复故障并定位问题. 监控的重要性不言而喻，可是接入监控的额外工作又让人望而却步. 每天编写代码之余，又要花多少时间定位线上问题. 自己负责的系统故障，是否要等调用方反馈才知道.

OCR技术在爱奇艺的应用实践及演进

- - 掘金后端

随着人工智能的热度上升，图像识别这一细分领域也渐渐被人们所关注. 在很多公司的业务中，有很多需要对图片进行识别的需求. 为了帮助业务实现对这些图片、文档的识别和结构化，业界进行了一系列的实践和探索，最终确定了一些可行的方法，总结了在实践过程中可能遇到的问题和难点. 为了更好地了解OCR技术在爱奇艺的应用实践，最近，InfoQ“大咖说”栏目邀请爱奇艺智能平台部助理研究员——Harlon 进行了一场直播分享，结合目前的业务需求，为我们陈述了爱奇艺在探索OCR技术发展过程中遇到的痛点和难点，以及识别技术的一些细节，以下是采访实录.

Netflix原创这么厉害爱奇艺优酷为什么没有追？

- - 今日话题 - 雪球

Netflix 今年计划推出700部影视作品，原创内容风生水起，今年以来涨幅也已超过80%，这么看，自制这条路已经走通了，那么爱奇艺优酷为什么不放手大干呢. 思考一个问题，影视原创，中国的视频网站有没有机会. 这虽然是个老话题了，之所以翻出来，是因为过去市场对互联网公司自制内容还抱有极大的疑问，而现在Netflix已经证明了这条路的可行性.

爱奇艺、虎牙、B站、映客的不同之处 - 老虎社区

- -

$虎牙直播(HUYA)$登录纽交所，IPO首日高开30%，最终收涨34%，热度瞬间冲到中概榜首. 有人总结虎牙上市是占尽天时地利人和，想想不无道理. 天时：上市时间点选得好，踏入5月以来，大盘强劲、相关的中概新股爱奇艺和B站也都大幅反弹，过去一周，. $爱奇艺(IQ)$一周大涨27%，. $B站(BILI)$过去一周累计大涨15%；.

爱奇艺短视频分类技术解析

简介