2张图带你看懂今日头条推荐系统

标签: 产品设计 2年 今日头条 初级 推荐系统 | 发表时间:2019-04-18 11:57 | 作者:皮带
出处:http://www.woshipm.com

推荐系统是一个策略行为,本文将用两张图,来带你看懂今日头条的推荐系统。

推荐系统的“前身”

2016年,腾讯以80亿美元估值投资今日头条,结果大家都知道,张一鸣拒绝了腾讯的投资,现在大家也知道,字节跳动估值750亿美元,这一切,推荐系统功不可没。

因为搜索引擎和推荐系统太相似,相对来说也更简单(勿喷),所以我们先来了解一下搜索引擎。至于搜素引擎是不是推荐系统的前身,我很懒,没有考察。

如上图,搜索引擎分成为离线部分和在线部分,每一部分有不同的使命。

简单来说,搜索引擎的离线部分,专注于内容的搜集和处理。搜索引擎通过网络爬虫抓取网站上的原始内容,并将内容建立索引。这些内容会根据搜索系统的不同要求建立不同的索引体系,比如新闻类型的内容,会建立时效性的索引数据。

搜索引擎的在线部分,负责响应用户的搜索请求,完成内容的筛选和排序,并将最终结果返回给用户。我们举一个例子来说明这个流程:

  1. 用户在搜索引擎输入一个关键词NBA,搜索引擎搜索会对关键词进行分析、变换、扩充和纠错等处理,比如发现美职篮与NBA是同义词,就会将其扩充。
  2. 接下来,搜索引擎会通过多种方式从不同索引数据获得候选集,这个环节叫召回。
  3. 得到候选集后,搜索引擎通过更精细的计算模型对每一篇候选内容进行分值计算,对候选集的每一项进行排序。
  4. 这个时候,还不能将结果展示给用户,需要经过规则干预这一过程。这个过程服务于特定的产品目的。假如有这样一条“官方网站保护规则,确保所有品牌搜索词都可以优先返回官网”,则此时就会将官网插入并置顶,最后再将结果展示给用户。
  5. 此时,搜索引擎的工作还未结束。搜索引擎会根据用户的点击反馈去优化排序模型。比如,大部分用户都没有点击文章10,则文章10后续就不会获得更靠前的展现位置。

对以上两图进行总结就是下图,就是想让你们看的第一张图:

今日头条的推荐系统

通过上“一”张图,我们明白了搜索引擎的原理(无论怎样我都会装作你看懂了),而今日头条的这张图,就是比上图上多了一笔,考虑到这两张图高度相似,我这么懒的人,当然是不会去画的了,你们发挥想象吧。

其实,推荐系统也有离线部分和在线部分。上图(那不是图,是PNG)即是推荐系统的离线部分,与搜索引擎大同小异。

  1. 和搜索引擎一样,推荐系统也需要获取内容。推荐系统通过数据库导入、协议同步和用户提交等方式获取推荐内容。区别于搜索引擎,推荐系统获取内容的方式较多,且内容的结构化程度要远胜于搜索引擎爬虫抓取的内容。
  2. 推荐系统也需要将待推荐的内容进行索引化处理,这一点与搜索引擎较为相似。推荐系统的维度会更多。

接下来,就是推荐系统的在线部分了。天啊,看到上图,发现推荐系统真的和搜索引擎太像了,就多了一笔。

  1. 搜索引擎的输入为用户的搜索关键词,推荐系统同样需要输入,只是这个过程用户没有感知,对推荐系统来说,它的输入为场景信息,比如时间、地点和设备等。
  2. 搜索引擎获得输入后,会进行关键词处理,对于推荐系统来说,会进行用户画像查询。这个案例中,推荐系统了解到,该用户在实体词维度,对NBA感兴趣,在分类维度,对体育和科技感兴趣。
  3. 查询到用户画像后,推荐系统就进入召回环节。它通过多种方式,根据用户画像查询结果“NBA、体育和科技”,从不同索引数据里获得候选集合。
  4. 在召回完成后,和搜索引擎一样,推荐系统按照预定预估目标对候选集进行排序。
  5. 同样,推荐系统也需要经过规则干预步骤后,才会将最终结果展示给用户。
  6. 对于最后一步,用户的各种动作行为,在搜索引擎里,会持续优化排序模型,在推荐系统里,还会持续改进自身的画像。

对以上两图进行总结就是下图,就是想让你们看的第二张PNG(图):

推荐系统的本质

通过对搜索引擎和推荐系统的两张图,我们大致明白了推荐系统是怎么个一回事。实际上,推荐系统是一个策略行为。对于策略,他有四要素,分别是:

  1. 待解决问题
  2. 输入(影响解决方案的因素)
  3. 计算逻辑(将输入转换成输出的规则)
  4. 输出(具体的解决方案)

对于今日头条来说:

它待解决的问题是“从海量的内容中,找到用户喜欢的内容”;

他的输入是“用户画像和内容特征”;

计算逻辑:将这些内容特征按一定规则转化为喜欢度;

输出:将内容按喜欢度从高到低排序。

由于我推荐系统的课程还未结束,先不展开这部分内容了。后面博客会对上文进行展开,有兴趣的同学,欢迎关注。

说明:以上内容来源于个人阅读和付费课程的归纳整理。

 

本文由 @皮带 原创发布于人人都是产品经理。未经许可,禁止转载

题图来自Unsplash,基于CC0协议

相关 [今日头条 推荐系统] 推荐:

2张图带你看懂今日头条推荐系统

- - 人人都是产品经理
推荐系统是一个策略行为,本文将用两张图,来带你看懂今日头条的推荐系统. 2016年,腾讯以80亿美元估值投资今日头条,结果大家都知道,张一鸣拒绝了腾讯的投资,现在大家也知道,字节跳动估值750亿美元,这一切,推荐系统功不可没. 因为搜索引擎和推荐系统太相似,相对来说也更简单(勿喷),所以我们先来了解一下搜索引擎.

今日头条的五个亿

- - 扯氮集--上海魏武挥的博客 - 扯氮集--上海魏武挥的博客
有媒体传出消息,“今日头条”日前完成了C轮融资,融资额度为1亿美元,对应的,公司估值5个亿美元. 这个数字很夸张,一来因为一年前B轮融资的时候,估值还不过6000万美元. 二来,一个新闻客户端,居然值那么多钱. i黑马昨日发表了一篇很长的对今日头条创始人张一鸣的专访,从这篇专访中,大致可以看出点端倪.

今日头条产品思路分析

- - 人人都是产品经理
法则之三:少即是多(摘自《感知的、几款过亿美金APP的创业法则》). 媒体是最容易被操纵的,也是最容易变成一个官僚权力纷争的名利场,它被太多外在因素干扰. 而技术是一种手段,可以公正公平地让每个用户感知到自己的偏好,而且通过不断智能筛选还能提高用户的粘性和数据的多维度. 我想这才是真正的互联网手段去颠覆传统媒体,当然这也是那些来自报社杂志社的在各家门户琢磨着标题党的同学们不敢想、不屑想的手法.

Min-Hash和推荐系统

- - xlvector - Recommender System
前几年看Google News Recommendation的那篇Paper,对里面提到的MinHash的算法基本没有注意,因为之前的习惯都是只注意论文的模型那块,至于怎么优化模型一般都只是扫一眼. 不过最近看了大量的Google Paper,发现Google在实现一个算法方面确实有很多独到之处. 其实,Min-Hash是LSH(Locality Sensitive Hash)的一种,我之前对LSH的了解仅仅限于知道它能把两个相似的东西Hash成两个汉明距离接近的2进制数.

推荐系统实战

- - 博客园_首页
推荐算法:基于特征的推荐算法. 推荐算法准确度度量公式:. 其中,R(u)表示对用户推荐的N个物品,T(u)表示用户u在测试集上喜欢的物品集合. 集合相似度度量公式(N维向量的距离度量公式):. 其中,N(u)表示用户u有过正反馈的物品集合. 其中,S(u,k)表示和用户u兴趣最接近的K个用户集合;N(i)表示对物品i有过正反馈的用户集合;w(u,v)表示用户u和用户v的兴趣相似度;r(v,i)表示用户v对物品i的兴趣.

推荐系统杂谈

- - 后端技术杂谈 | 飒然Hang
推荐系统是近些年非常火的技术,不管是电商类软件还是新闻类app,都号称有精准的推荐系统能给你推送你最感兴趣的内容. 现象级的资讯类app“今日头条”就得益于此成为了势头非常猛的一款产品. 本文就针对推荐系统讲述一些相关概念和实践经验. 首先需要明确的就是推荐系统的目标,一般来说不外乎以下几个:. 用户满意性:首当其冲的,推荐系统主要就是为了满足用户的需求,因此准确率是评判一个推荐系统好坏的最关键指标.

“今日头条”侵权的几种可能

- - 付亮的竞争情报应用
1、新闻聚合增值,潜力还很大,“今日头条”的聚合仍属于初级阶段. 2、不改变原始网址,通过“标题+链接”或“标题+摘要+链接”做内容聚合,除非原来源明确表示禁止,我不认为构成了侵权. 3、如果链接到的网页已构成侵权,聚合也构成侵权. 4、内容来源明确拒绝第三方聚合后,未经单独许可,坚持聚合会构成侵权.

品读:与今日头条反向而行

- - 动点科技
尽管个性化阅读软件“ 今日头条”此前面临来自《新京报》、搜狐等合作媒体以及国家版权局的压力,但作为一家新闻资讯推荐公司,北京旭宁信息技术有限公司CEO徐屾屾认为,“从其产品来说,今日头条推荐的新闻还是很准确. 徐屾屾的团队一起合作了很多年,这是一个有多年开发经验的老团队. 2009年初,他们做的第一款手机应用Daily Finance iPhone App就成为美国最受欢迎的金融应用,之后又连续做了4款游戏.

今日头条的流量哪里去了?

- - IT瘾-tuicool
「对了,不少头条号作者收入锐减的确是被调参数了,作者曝光权重和广告分成系数两个都被挤压,打压老的作者,扶持新人」,在和一位非常了解今日头条的深喉聊天的时候,他和我透露了这样的一个消息. 事实上,在营收和流量增长的压力之下,头条对内容生产者的态度正在发生微妙的变化. 数据大幅增长之后,流量迎来新的分配机制.

个性化推荐系统综述

- Tony - 所有文章 - UCD大社区
上个月写过一篇产品推荐的文章,详情请见《我所了解的产品推荐》,内容很泛,多为工作心得. 本周读了几篇相关的论文,收获颇多,分享点干货. 以下内容摘自《个性化推荐系统的研究进展》,该文发表于2009年1月的《自然科学进展》专题评述,作者是刘建国、周涛、汪秉宏. 我略去了具体的算法和许多公式,重点看原理、思路和比较.