抖音推荐机制与算法的研究

标签: 数据 术→技巧 营销 抖音 推荐算法 | 发表时间:2021-05-13 18:58 | 作者:钱魏Way
出处:https://www.biaodianfu.com

最近公司的部分运营工作涉及到的抖音短视频的宣传。为了达到更好的效果,于是对抖音的推荐机制进行了简单的整理和研究。

通过数据的分析,我们发现在传播效果方面,抖音>小红书>微信朋友圈>新浪微博。究其原因是内容分发的逻辑存在非常大的差异。

  • 微信朋友圈、新浪微博:订阅模式,用户仅能看到好友或关注者的信息
  • 抖音、小红书:非订阅模式,用户可以看到个除关注用户以外的其他内容

微信虽然可以通过转发传播,但是在转发意愿度层面会消弱传播效果。朋友圈转发困难度较大,很难进行二次传播。而非订阅模式的抖音模式通过算法机制,可以将内容一次次的推送给潜在感兴趣用户,致使内容可以大面积的广泛传播。

  • 从创作者角度:只需内容足够“优秀”,就能获得很好的分发机会
  • 从普通用户角度:无需寻找信息源也能获取“优质”的内容

关于抖音的分发推荐机制,我没有找到官方的说明材料,但获取到了同样字节跳动旗下的“中视频平台” 西瓜视频的推荐机制介绍。

西瓜视频的推荐机制

要了解推荐机制,首先我们要了解观众。每个观众的观看兴趣都是大不相同的,个性化推荐机制要做的事情就是让每位用户看到可能感兴趣的内容。这种精准推荐,是建立在机器对每位用户都有充分认知的前提下的。在机器中,每位用户实际是由大量数据构成的,用户的观看兴趣就藏在这些数据中。不同数据对用户兴趣计算所占权重不同,数据包括:

  • 性别、年龄、所处城市;
  • 关注的帐号、常浏览的频道、关注的话题;
  • 观看过的视频分类和关键词;
  • 相似类型的其他用户还喜欢观看的其他视频类型;
  • ….

推荐系统的本质,就是从一个海量的内容池里,为观众匹配出少量感兴趣内容。为了给用户提供他们喜欢的内容,或者理解用户的需求,平台有很多角度可以去刻画一个用户的画像,比如,年龄、性别、历史浏览的文章、环境特征等;同时,利用先进的AI技术对内容进行分门别类。紧接着,推荐机制就像一座“桥梁”,连接观众和内容,将内容源源不断地推送到感兴趣的用户面前。这座“桥梁”有两个特点:

  • 兴趣匹配:观众的观看类型与内容分类重合度最高,被系统认定最可能对该内容感兴趣。
  • 分批次推荐:首先会被推荐给一批对其最可能感兴趣的观众,这批观众产生的数据,将对内容下一次的推荐起到重要作用。

视频的首次推荐,如果点击率低,转评赞不高,系统认为视频不适合推荐给更多的用户,会减少二次推荐的推荐量;如果点击率等数据高,系统则认为视频受用户喜欢,将进一步增加推荐量。以此类推,视频新一次的推荐量都以上一次推荐的点击率等数据为依据。例如,一个视频首次推荐给了1000个用户,如果这批用户的点击率、完播率等较高,系统判定用户非常喜欢这篇视频,将其扩大推荐给10000个用户,如果这轮推荐用户的点击率、完播率等仍然维持在较高水平,那么系统会将视频再次扩大推荐给30000个用户、50000个用户、100000个用户……推荐量和播放量便如滚雪球一般节节攀升。因为这种扩大推荐的机制,创作人想获得更多的播放量,就必须努力把各维度阅读数据(点击率、用户播放时长、收藏数、评论数、转发数等)维持在高位水平。这就要求视频:

  • 标题和封面图具有足够的吸引力、表意清晰,提高点击率;
  • 视频内容优质,剪辑解说俱佳,提高用户播放时长和播放完成度;
  • 内容详实,给观众干货般的充实感,提高收藏数和用户播放时长;
  • 观点鲜明,引发观众讨论,增加评论数和转发数。

其中,至关重要的当然是点击率,完播率,转评赞等,也因此,标题和封面图的重要性便不言而喻。这也是今天注意力稀缺时代,播放获得好的传播的关键要素。有吸引力的标题能带来更多点击,但这不意味创作人要成为惯用夸张标题的标题党。恰恰相反,标题党反而会被平台通过技术手段识别和打压,限制推荐量。除了标题夸张,用户举报密集、负面评论过多都是限制播放推荐量的因素。归根结底,一个作品能否获得更多推荐最终取决于内容质量,好的内容才能带来流量的长效增长。

从西瓜视频到抖音短视频

关于抖音的分发机制完善流传着这样一份的流程图,整体流程和上面的西瓜视频的介绍的推荐逻辑类似。后续我们就根据下面的流程进行深入的研究与分析。

检测机制

在抖音,每天有数量庞大的新作品上传,需要对一些内容进行过滤,从目前公布的内容看,检测主要集中在:

  • 去重检测:抽帧检查视频是否存在搬运、抄袭问题
  • 违禁检测:字幕、标题中是否涵盖违禁词汇,有无裸露
  • 版权检测:音乐版权是否侵权,大陆有无版权问题

如果纯靠机器可能存在一些误判,人工一一确认又不太现实。所以采用机器检测和人工检测的结合。

机器审核:一般是通过提前设置好的人工智能模型来识别你的视频画面和关键词,它主要有两个关键作用:

  • 审核作品、文案中是否存在违规行为,如果疑似存在,就会被机器拦截,通过飘黄、标红等提示人工注意;
  • 通过抽取视频中的画面、关键帧,与抖音大数据库中已存在的海量作品进行匹配消重,内容重复的作品进行低流量推荐,或者降权推荐(仅粉丝可见、仅自己可见)。
  • 有没有出现广告、有没有带水印或者LOGO、内容是否裸露、不雅、血腥等

人工审核:主要集中在3块:视频标题、封面截图和视频关键帧。

  • 针对机器审核筛选出疑似违规作品,以及容易出现违规领域的作品,抖音审核人员进行逐个审核。
  • 如果确定违规,将根据违规账号进行删除视频、降权通告、封禁账号等处罚。

通过检测是迈向内容分发的第一步,如果第一步没通过则相当于被关进了小黑屋。违规检测相对来说比较容易规避。版权检测,特别是音乐版权有时不清楚自己使用的音乐是否合规,保守方案是使用抖音上目前热门视频所使用的音乐。去重检测其实是一个很容易误触的机制,特别是一些模仿性质的内容,可采取的方案是更换不同的背景、角度、服装等。录屏性质的视频非常的特别特别容易触发去重检测,取而代之的是摄屏的方式,摄屏是可以采取不同的背景和角度,但需要注意的是保证摄屏时的清晰度。

赛马机制

抖音的算法其实是一个赛马机制。简单的说就是先将视频推荐给小部分人群,收集这部分数据的表现情况,再将表现好的视频分发到更大的范围。

所以抖音流量的增长方式并不是线性的,增长曲线更多类似:

从目前了解的资料看,抖音的赛马机制总共有三种方式:

  • 初级分发:通过机制确认无违规后由附近的人/关注/好友/标签组成的初级分发流量池
    • 通讯录好友:提取你的手机电话通信录中的手机号码,将电话号码上传到抖音服务器,匹配好友。
    • 共同联系人:类似QQ共同联系人推荐,抖音也会使用共同联系人进行关系绑定
    • 以前还有通过抓取微信好友关系链的,后来好像被腾讯告了
  • 多级推荐:根据初级流量回馈评分达到算法设定的分值进入下一级流量池推送
  • 热门推荐:根据热门推荐算法结合先前流量回馈评分选取优秀视频进行人工审核,做精热门推荐,审核的范围可能包括
    • 搬运、非原创视频:含有其他平台水印、视频ID与上传ID不符、明显盗录内容
    • 低质量视频:内容物故事性、完整度差、视线模糊
    • 广告营销:明显的广告营销类型信息
    • 隐性风险:出现标题党、危险动作、令人不适元素等高危内容
    • 未授权明星/影视赛事类视频:视频内容侵权

以下是网友通过数据的整理的大致抖音流量池分级情况:

  • 首次曝光,300左右播放量
  • 二次曝光,3000左右播放量
  • 三次曝光,2~1.5W左右播放量
  • 四次曝光,10~12W左右播放量
  • 五次曝光,40~60W左右播放量
  • 六次曝光,200~300W左右播放量
  • 七次曝光,700~1100W左右播放量
  • 八次曝光,3000W+播放量

流量触顶

抖音作品经过双重审核、初始推荐、叠加推荐层层引爆之后,通常会给账号带来大量的曝光、互动和粉丝。而这种高推荐曝光的时间,一般不会超过一周。之后,爆款视频乃至整个账号会迅速冷却下来,甚至后续之后发布的一些作品也很难有较高的推荐量。主要原因:

  • 抖音每天的日活是有限的,也就是说总的推荐量是基本固定的,需要把机会尽可能的给到更的创作者
  • 与你内容相关标签的人群基本完成推荐,其他非精准标签人群反馈效果差,所以停止推荐
  • 抖音也不希望某个账号仅通过一个视频就大火,而是期望你能持续不断的输出优质内容

推荐机制

单有赛马机制对于抖音来说还不够,抖音想要的提升的用户的观看体验,最重要的是将合适的内容推荐给合适的用户。想了解抖音的个性化推荐算法先从数据角度进行分析,以下是抖音前端返回的数据:

视频信息:

  • aweme_id:视频ID
  • desc:视频描述
  • create_time:创建时间
  • height:视频高度
  • width:视频宽度
  • dynamic_cover:动态封面
  • ratio:清晰度
  • has_watermark:是否有水印
  • bit_rate_gear_name:码率清晰度(视频清晰度可能影响视频评分?)
  • quality_type:质量类型
  • bit_rate:视频比率
  • is_h265:是否为H265视频
  • duration:时长
  • user_digged:作者自己点赞
  • allow_share:是否允许分享
  • allow_comment:是否允许评论
  • with_goods:包含商品
  • is_top:是否置顶
  • is_vr:是否VR视频
  • is_ads:是否广告视频
  • risk_infos:风险信息
  • position:位置
  • is_pgcshow:是否PGC内容
  • interaction_stickers:互动贴纸

音乐信息:

  • id:音乐id
  • title:音乐标题
  • author:音乐作者
  • album:音乐专辑
  • cover:音乐封面
  • duration:音乐时长
  • has_edited:音乐是否被编辑过
  • user_count:使用人数
  • collect_stat:收藏人数
  • owner_id:作者id
  • owner_nickname:作者昵称
  • is_original:是否原创
  • binded_challenge_id:绑定挑战赛
  • strong_beat:节拍数据(可绘制波形图)
  • is_commerce_music:是否商业音乐
  • is_original_sound:是否原声
  • shoot_duration:视频使用时长

用户信息:

  • nickname:创作者昵称
  • avatar:头像
  • signature:签名
  • total_favorited:总获赞
  • fans_count:粉丝数
  • following_count:关注数
  • dongtai_count:动态数

除了这些基础的信息外,针对推荐系统,通常最需要获取的是用户的行为数据:

  • who,唯一的用户标识
  • when,具体时间
  • where,地理位置
  • what,交互的内容(包括上面的使用、音乐和创作人)
  • which ,用户的行为(上滑、下滑,左滑、右滑、点赞,关注,点评……)
  • environment,网络环境、运营商画像、设备品牌型号…

推荐系统一般有以下四个部分组成:

  • 用户画像,系统根据用户基本属性(比如:性别、年龄、学历等)、兴趣爱好(比如:科技、娱乐、体育、金融等)等数据集,然后给用户定义相关的标签。
  • 内容画像,系统根据内容的层级分类、关键词、实体词等分析出特点,给各类内容打上相关的标签。
  • 用户与内容匹配,有了用户标签和内容标签之后,系统根据用户画像、内容画像,在内容池里面匹配出用户喜欢的内容然后展示出来。
  • 推荐排序,系统要面对数亿级的用户和内容,同时还要考虑用户的喜欢会不断的发生改变,为了让挑选的内容更加的贴近用户想要的、更加符合用户喜欢,系统需要对内容进行排序。

做常见的推荐算法为协同过滤,协同过滤算法通常会被分为两大类:

  • 基于物品的协同过滤:分析用户喜欢过的内容;找到与该内容相似的内容,推荐给用户。
  • 基于用户的协同过滤:找到这个用户相似的目标群体;把该群体用户喜欢过的内容推荐给这个用户。

对于抖音来说,每天产生的视频非常的多,如果抖音使用基于物品的协同过滤算法做推荐,则需要对平台的每条内容做相似度计算,除了需要识别视频画面中出现的物品以及他们之间的关系外,还要识别视频的背景音乐、台词。显然,对于以视频为主要内容的抖音来说,选择这种推荐算法是极其不明智的。如果使用基于用户的系统过滤算法取推荐算法就不必知道某条内容是什么,只需要看到某一群人都喜欢这条内容就可以把这群人归到同一类人里。严格意义上说,抖音给用户的打的并不是具体的属性标签,而是类似聚类出来的一个ID。

以上介绍的知识最初级的推荐算法的逻辑。抖音的多级流量池,实际是基于上一级流量池的响应数据利用类似Lookalike 算法去扩大用户群。

抖音的算法并不会仅仅像上面介绍的一样,中间还需要考虑非常多的其他场景和因素。比如初级分发,其实就是推荐算法中的冷启动问题。对于一个全新的视频无法通过系统过滤的方式给推荐出去。退而求其次的方式是给视频和用户打上标签属性,再通过标签的匹配筛选做可能的用户做打样。中间又涉及到两个问题:

  • 如何给视频打标签
  • 如何给用户打标签

如何给视频打标签?

  • 视频添加的标签hashtag
  • 视频的标题内容,通过对视频标签进行文本分析确定。
  • 视频内容中可能出现的字幕、语言内容转化成文字后的文本提取?(这个实现起来较难,不确定)
  • 视频发布者历史发布的内容类别

基于以上大概能给一个视频初步的分类。

一般推荐系统的分类都要按照层级进行划分的,如下图:

如何给用户打标签?

  • 通过历史用户操作反馈的,基于历史反馈的视频的标签统计汇总用户信息
  • 通过阈值筛选用户感兴趣的标签

引申话题:如何让冷启动更有效?

  • 发布账号尽可能的有明确的定位
  • 视频标题有出现关键字,而不仅仅是一些吸引眼球的无关内容或文青式的话术
  • 给视频打上合适的hashtag
  • 超过300以上的活跃关注者(粉丝多更容易拉高互动数)

二次引爆

除了以上正常的流量池流程外,抖音还有两种额外的情况:

  • 再发一遍就会火:出现这种情况的可能原因是冷启动阶段,你的视频内容被推荐给了错误的目标用户,这部分用户对视频的反馈比较低,导致没有进入多级推荐。再次上传后目标用户得到修正。
  • 老视频莫名奇妙火:可能你的视频前期匹配的用户群不够精准,导致未达到推荐阈值。但随着时间推移,视频点赞率等都突破了一定之触发了重新推荐机制。

考核机制

短视频想要进入下级流量必须满足一定的指标要求,并且由于流量池越开越大,响应的匹配精度越低,平台想要控制整体内容的满意度,对于指标的要求也会越来越高。抖音推荐算法中的赛马机制主要看中的视频指标由以下部分组成:

  • 账号分值:
    • 完成度:头像、昵称、签名、性别、其他资料
    • 健康度:内容质量、话题专业度(历史视频表现?)
    • 认证:是否达人认证
  • 视频分值:通过算法加权?
    • 完播率
    • 点赞率
    • 评论率
    • 分享率
    • 转粉率

如何评级视频质量的好、中、差?

  • 完播率:尽量控制15-40秒,太短抖音嫌弃,太长用户耐心不够划走。选择优秀的歌曲可能保证完播率(用户想把歌听完)
    • 0-10%——较低
    • 10%-30%—— 一般
    • 30%以上——较好
  • 作品平均播放时长: 前3秒是关键!抓人眼球,多留悬念、反转、梗。让粉丝带着期待坚持看完。
    • 3秒以下——较低
    • 3-7秒—— 一般
    • 7-15秒——较好
    • 15秒以上——很好
  • 互动率:开头和结尾的设计很关键,打造独特的”记忆点”,可以引导粉丝点赞留言。
    • 点赞率:5%以上
    • 评论率:1%以上
    • 转发率:5%以上
  • 吸粉率:有趣又有用的内容,是吸粉关键。
    • 1%以上

什么样的视频有爆款潜质?

通过数据统计得到的结论:

  • 完播率:30%以上
  • 点赞率:10%以上
  • 评论率:5%以上
  • 分享率:1%以上

所以,一个作品发出后,基本前面一两个小时,或者30分钟左右,就能预测到是否会火了。如果1小时之内,播放量突破5000,而点赞量能大于100,评论数大于10,那么,得到系统推荐的机率就大很多了,基本上离热门也不远了。

其他信息

用户可以直接通过抖音推出的DOU+氪金让自己创作的视频直接进入更高级别的流量池。

参考链接:

相关 [抖音 算法 研究] 推荐:

抖音推荐机制与算法的研究

- - 标点符
最近公司的部分运营工作涉及到的抖音短视频的宣传. 为了达到更好的效果,于是对抖音的推荐机制进行了简单的整理和研究. 通过数据的分析,我们发现在传播效果方面,抖音>小红书>微信朋友圈>新浪微博. 究其原因是内容分发的逻辑存在非常大的差异. 微信朋友圈、新浪微博:订阅模式,用户仅能看到好友或关注者的信息.

研究人员破解W3C XML加密标准算法

- 远 - Solidot
在芝加哥举行的ACM计算机与通信安全会议上,两位德国研究人员宣称他们找到了方法破解XML文档中的加密数据,XML文档使用的是W3C制定的XML加密标准. XML加密作为服务器到服务器Web服务连接一部分而得到广泛使用,其加密技术是基于密码块链接,将安全信息和非敏感信息混合起来. 例如,在基于XML的订单中加密用于支付的信用卡信息.

MIT教授研究出治交通拥堵的算法

- - 36氪 | 关注互联网创业
交通拥堵堵的不仅仅是车也堵心. 把头伸出车窗外,看着前面一望无际一动不动的长龙,每个人都恨不得自己长了一双翅膀. 不过,在我们进化出翅膀之前,麻省理工学院的教授Berthold Horn已经在试图去缓解一下这种状况. 他想出了一种控制算法,让车辆利用这种算法可以以近乎完美的节奏与周边的车辆保持距离的一致.

关键词抽取算法的研究 | 吴良超的学习笔记

- -
分词–>过滤停止词,得到候选关键词–>从候选关键词中选出文章的关键词. 从候选关键词中选出文章的关键词需要通过关键词抽取算法实现,而关键词抽取算法可以根据是否需要人工标注的语料进行训练而分为有监督的提取和无监督的提取. 有监督的提取需要人工标注的语料进行训练,人工预处理的代价较高. 而无监督的抽取算法直接利用需要提取关键词的文本即可进行关键词的提取,因此适用性较强.

现在有没有帮助建筑设计的app,或者程序或是研究出来的算法?

- - 知乎每日精选
建筑设计的自动化,早先上课听人讲过,但总的来说不靠谱. 1是多数情况下都是直接拿现成模式改改,根本不用算. 2是情况复杂,根本没有靠谱的算法. 功能上1 的情况更多,实际上我们这行业人流,空间,位置这些根本没啥可算的,规范和经验都定的很死,不值得一算. 而形态立面这些基本上又无迹可寻,2的情况多,完全看领导的个人口味,也没啥蒜头.

用户研究

- - 技术改变世界 创新驱动中国 - 《程序员》官网
介绍自己的设计流程时,设计师通常都说它是“以人为中心”或是“以用户为中心”的. 笼统地讲,这表示设计师经常要考虑所设计产品的潜在用户,尽力为这些人创造出最好的产品. 这个问题看似简单,实际上却不好回答. 好的设计通常都是从用户研究着手的. 我们如何才能发现人们想要实现的目标. 虽然这样做有时会得到一些有用的信息,但一定要小心地评估人们给出的答案.

JVM研究

- - 开源软件 - ITeye博客
每天接客户的电话都是战战兢兢的,生怕再出什么幺蛾子了. 我想Java做的久一点的都有这样的经历,那这些问题的最终根结是在哪呢. JVM全称是Java Virtual Machine,Java虚拟机,也就是在计算机上再虚拟一个计算机,这和我们使用 VMWare不一样,那个虚拟的东西你是可以看到的,这个JVM你是看不到的,它存在内存中.

“抖音”是如何一步一步被找到的?

- - IT瘾-tuicool
原标题为《从0到1如何避开陷阱》,作者:沈振宇,头条前资深产品经理,险峰入驻企业家,曾创办图虫网、多说网,题图来自东方IC. 如何不陷入“big date”陷阱,把握更有价值的“thick date”. 如何在快速低成本的试错中找到正确答案. 今日头条、抖音是如何在试错迭代中诞生的. 用户心智排斥及接纳哪些产品定位.

为什么我劝你不要做抖音。

- - 总有一天能用到的资料 - 收藏夹 - 知乎
全文8千字,可能是知乎最全面的视频自媒体攻略. 全家无论老小,一天到晚疯狂地刷抖音. 原来,短视频的渗透率已经到了这个地步了. 比起文字内容,这是天然的压倒性优势. 加上长/短视频平台最近的大火,. 不少自媒体人,早早地就已经开始了自己从文字内容到视频内容的转化性布局. 这篇文章,以我的认知,来剖析一下视频自媒体,.

BigPipe学习研究

- maxiyun - 搜索技术博客-淘宝
技术背景 FaceBook页面加载技术. 试想这样一个场景,一个经常访问的网站,每次打开它的页面都要要花费6 秒;同时另外一个网站提供了相似的服务,但响应时间只需3 秒,那么你会如何选择呢. 数据表明,如果用户打开一个网站,等待3~4 秒还没有任何反应,他们会变得急躁,焦虑,抱怨,甚至关闭网页并且不再访问,这是非常糟糕的情况.