推荐技术随谈,你知道的或者不知道的

标签: dev | 发表时间:2019-08-10 00:00 | 作者:
出处:http://itindex.net/relian

大家好,今天想和大家讨论下相关推荐技术通用的特点及在实践中的改进点,这也是我们团队在研发实践中一些经验总结。

首先,推荐解决主要问题是给用户在没有行为的新闻上预测一个偏好概率,然后通过概率值由高到低排序推荐给用户。如图简单地表达了用户在新闻上的稀疏行为矩阵,通过我们会基于用户的画像特征、内容特征、上下文场景特征、用户对新闻的各种操作行为特征等对内容候选集进行排序打分。其中很直观的解决办法是通过计算用户之间相似或者商品之间的相似来推荐。

那么,协同过滤中 UserCF 模型和 itemCF 模型是最简单的办法。这里着重对两者进行对比:

1. itemCF 比较适合个性化推荐场景(比如,商品、电影、短视频等各种场景),它偏重当前用户的当前行为,从而能推荐与当前相关新闻的内容,而 UserCF 更偏群体性(比如,新闻推荐场景),计算当前用户的 K 个相似用户时,当 K 值偏大,UserCF 推荐更偏热点;

2. itemCF 兴趣扩展比 UserCF 弱,因为 itemCF 会根据你当前的行为推荐与当前相关的内容,不像 UserCF 能够学习到多个用户不同的偏好;

3. itemCF 能解决用户的冷启动问题,只要新用户对一个新闻产生行为,就能够推荐和该新闻相关的内容,相反 UserCF 能解决 item 冷启动问题,因为用户相似度计算通常是离线计算的,新闻上线后一段时间,一旦有用户对新闻产生行为,就可以将新上线的新闻推荐给和对它产生行为的用户兴趣相似的其他用户。

这里,用数学的角度去解释协同过滤为什么能够在推荐中可行。如下基本假设换成数学解释就是,一个矩阵向量,如果行向量部分相同,那么行向量其余部分也有可能相同,代数上解释就是向量线性相关性,那么线性相关带来的是向量低秩,即向量是冗余的,冗余的向量带来的信息和消耗的计算资源是完全可以避免的,那么如何进行矩阵压缩并且保证不影响信息的丢失是推荐技术中的另一个关键。

比如说,矩阵分解。如下一个比较大的稀疏矩阵(低秩)能够拆分成两个比较小的矩阵相乘。公式  是由经验损失函数和结构风险函数组成的损失函数。

其实,基于前面的假设,协同过滤和矩阵分解两者具有很紧密的内在联系,只是两种不同的表达形式。我们需要弄清楚一个问题:超大维度矩阵表式形式带来的是信息的不相似,及稀疏数据计算的相似结果很有可能是不置信并且过拟合的,这样会导致信息准确性不足问题。在特征表示方面CF是维持了原有的元数据形式,能够捕捉更细粒度的局部特征,但这样带来的计算开销也是巨大的,所以,实际工业上出现了很多的变体方法。

业界解决 item2vec 的常用的算法是 ALS 和 Word2Vec。其中 Word2Vec 在序列表征用户和商品向量,然后直接计算相似度是非常熟知的方案。在实际的新闻信息流推荐中,Word2Vec 的点击效果比 ALS 要好30%+,主要有两个原因:

1. 用户的兴趣和行为是多样的,局部的行为往往更偏相关,往往整体的样本差异是很大的;

2. 在负样本采样中,ALS 是全局的负样本采样,Word2Vec 更倾向高频,倾向高频的采样更不容易让学习出的结果都与高频(头部)的结果相似。

我们思考一个问题,既然样本对模型的效果有显著的影响,那么我们想办法优化负样本会不会带来更大的提升呢?

针对 ctr 预测问题,我们把上一次点击、下一次展现和样本是否点击组成若干个三元组,然后我们去估计给定两个 item_id 的点击率,从而计算出两个 item 的相似。实践证明这种直接优化点击率目标函数的效果是非常好的,但是这种模型在遇到新的文章或者物品时是没法计算历史信息的,这其实是一个泛化性问题,怎么理解呢?

我们思考,能不能用一些泛化性的特征来表达 item_id 呢?当然可以。下面 side information 代表多个特征,熟悉 word2vec 的同学知道右边结构就是一个 skip-gram 的结构,给定一个 item_id,求其指定的窗口区间的 item_id,那么如果把 d3 替换成 itemid, keyword, category, author 等泛化特征,再放入模型中,word2vec 实质上变成一个多分类模型。同理,我们也可以在用户侧融入 side information。

下面右侧图实际上是演化二的形式,只是在左侧用户特征部分也融入了 side information,然后用户特征和电影特征两两计算相似,其中一般通过神经网络学习特征之间的交互信息。从整体上看,抽象的来理解演化三上下部分分别对应的是矩阵分解和特征融合两个过程。

上面三种都是基于矩阵分解的演化过程,但是你会发现他们特征之间的分开融合的,也就是用户特征和商品特征分别融合后再计算相似。下面介绍一种特征之间交互更紧密的模型。

FM(Factorization Machines),主要是为了解决数据稀疏的情况下,特征怎样组合的问题。如下其前半部分是我们熟悉的逻辑回归,后半部分就是多个 MF(n 个向量与向量相乘)。无论 MF 还是 FM 最后都是得到特征向量的表式,特征之间先 dot-product 再加和,与特征向量先加和再 dot-product 性质是一样的,只是 FM 在进行特征交叉时二元特征交叉参数不是独立的,而是相互影响的。那么这里读者可以思考一个问题,FM 既然一开始是做 ctr 预估排序模型,那为什么也能做召回?

虽然“天下武功出一家”,但是每个模型都有它的不足之处,在实际项目中最后的推荐效果都是多个模型组合的效果。最有效也最容易的解决办法就是采用集成手段,从不同的角度生成多个 ctr 预估模型,然后通过 GBDT 去做适合 dense 特征交互,这样集成的方法效果是非常大的。

前面涉及到的都是追求的一个业务指标最大化的问题,其实往往在实际业务场景中追求的是多个指标。下面以电商为例,提升点击率不是最核心的,提升成交转化率才是目的,所以,如何在点击和转化两个目标平衡是非常关键的。我们的解决办法是分别建立 ctr 和 cvr 模型,排序公式:

这里前提条件是两个模型预估准确率是非常高的。

另外,其中有个非常重要的超参是借助强化学习来解决的,超参可以理解你要求解的公式中相关的不确定的权重系数,这里不展开强化学习细节,业界强化学习在超参的调试中是比较成熟的解决方案。我们最后花了一周左右的时间调到最佳参数后成交率提升达到10几个百分点。

最后,分析一下排序模型,排序模型是一个贪婪模型,它往往是把高 PV 和高点击等前排商品推荐出来,这样能保证推荐效果的置信度。但是那些因为长尾问题而展现不足,质量比较好的内容就不容易被探索出来。业界现在比较成熟的解决方案就是采用个性化的 UCB 算法,该类型算法能很好的探索出一些被隐藏的高质量的商品。

以上,基本上关于常用的推荐技术做了大致的介绍,最后一点时间,我们谈一下算法之外与业务非常相关的问题。搜索更多是用户主动检索信息,然后通过用户提供的信息推出相关的内容,而推荐通过收集用户更多信息,更加主动推荐相关或相似或者可能感兴趣的内容。但推荐是没法捕捉长尾的内容的,所以没法分发不了一些需求和流量,因为推荐本质上还是“大众投票”的模型。总的来说,“搜索求准,推荐求新”。

推荐技术要在业务场景中落地,其实并不是太难,难就难在如何推出用户真正感兴趣的高质量内容,并且很多工程化上的细枝末节还是需要大家在实践中多积累、多试错、多复盘。

好,今天跟大家分享的观点,可能都是错的,因为随着技术的进步,上一秒可能正确的做法,下一秒可能就用不到了。



注:《推荐系统开发实战》已经在 京东/当当/天猫上线,感兴趣的朋友可以进行关注!


在这浮躁的社会沉静,用心记录,用心学习!



关于【搜索与推荐Wiki】

     专注于推荐系统,深度学习,机器学习,数据挖掘,云计算,人工智能,架构和编程等技术干货的分享和探讨,偶尔会推送一些福利,文字,摄影和游记,扫码关注,不再孤单。

更多干货,扫码关注

热相关文章

业内推荐系统架构介绍

三大案例带你从0到1实现推荐系统

推荐系统的的效果评估方式介绍

推荐系统冷启动问题

基于点击率预估的推荐算法介绍和案例

基于标签的推荐算法介绍和案例

基于上下文的推荐算法介绍和案例

基于用户行为特征的推荐算法介绍和案例

推荐系统的灵魂伴侣-数据挖掘

搭建一个电影推荐系统开始学推荐系统开发

推荐系统的前世今生与古往今来

     

 欢迎投稿,凡是投稿一经录用者,赠送技术图书和相关学习资料

国内各大互联网公司,可内推

关注公众号,加小编微信,拉你进

【数据与算法交流群】


你点的每个“在看”,我都认真当成了喜欢

相关 [技术 知道 知道] 推荐:

推荐技术随谈,你知道的或者不知道的

- - IT瘾-dev
大家好,今天想和大家讨论下相关推荐技术通用的特点及在实践中的改进点,这也是我们团队在研发实践中一些经验总结. 首先,推荐解决主要问题是给用户在没有行为的新闻上预测一个偏好概率,然后通过概率值由高到低排序推荐给用户. 如图简单地表达了用户在新闻上的稀疏行为矩阵,通过我们会基于用户的画像特征、内容特征、上下文场景特征、用户对新闻的各种操作行为特征等对内容候选集进行排序打分.

技术负责人必须知道的DevOps10个小技巧

- - 运维派
DevOps成为越来越多的大型公司和组织的关键,所以参考一些公司成功实施DevOps的一些做法对我们很重要. 很明显,只要正确运用,DevOps会是非常有效的工具. 今年6月份,一份Puppet问卷显示,使用DevOps方法的IT部门成功部署软件的次数平均是不使用的200倍. 同时,他们的恢复次数比没使用DevOps的同行多了24次,而且修改配置的失败率降到原来的三分之一.

28个你必须知道的HTML5的新特性,技巧以及技术

- zhibin - Hi, I'm Adam Lu.
原文:http://net.tutsplus.com/tutorials/html-css-techniques/25-html5-features-tips-and-techniques-you-must-know/. 尽管使用,即使浏览器不懂这句话也会按照标准模式去渲染.

有创意,没技术:创建iOS应用前需要知道的8件事

- - 36氪
编者按:苹果移动应用商店的魅力显而易见,很多开发者已经冲在前面,并早已发布自己的移动应用. 作为只有创意却不会编程、不懂设计的普通人,如果想要开发自己的iOS应用,需要先了解些什么呢. 流行iOS应用 Cloth的创建与维护者Seth Porges,结合自己的一些经历,给出如下 观点. 如果想创建一款iOS应用,至少也会让你花费1万美元左右.

Quora使用到的技术,quora也就是国内的知乎,百度知道,你问我答那种网站

- wangdei - Starming星光社最新更新
以前向大家介绍过Stack Exchange的系统架构和Facebook的系统架构,今天和大家说说Quora的. 本文主要参考了Phil Whelan的这篇文章《Quora’s Technology Examined》. 关于Quora是个什么网站我就不多说了,国内对他的C2C网站叫“知乎”. 我们还是来看看Quora的技术吧.

"技术流,算乳沟!!整天看你们发什么沟图!你知道肿么算沟吗?

- Yi - Cao Liu
这是一张中国标准胸图片,上面有A,B,C点,C乃黄金分割点,. 那么,此女子鉴定为13公分的**. 13公分乘以1.2(1.2指胸围). 用15.16乘以0.5再除以圆周率3.14的平方 我们可以算出此女子为D 75的胸. 我们运用圆侧面积 S=1/2(c+c')l 与**的表面积 S=4pi*r2.

预测人群流向:他的这项技术能知道朝阳群众们都要去哪儿

- - 只为商业新变量 | 极客公园
作者: 龟途慢慢 我们该如何丈量我们所生活的城市. 经济学家有 GDP 等经济学数值,社会学家有各项社会调查指标,建筑学家、统计学家…似乎各行各业都有自己「计算」一座城市的方法. 那,计算机科学家该如何做这件事呢. 从 2008 年开始,来自微软亚洲研究院的郑宇博士开始主持一项名为「城市计算」的研究,具体地说,城市计算是一个通过不断获取、整合和分析城市中多种异构大数据来解决城市所面临的挑战(如环境恶化、交通拥堵、能耗增加、规划落后等)的过程.

百度知道XSS漏洞

- - 博客园_首页
事情的起因是我一同学在百度知道上看到一个很奇怪的,正文带有连接的提问( 这里),正常来说,这种情况是不可能出现的. 我条件反射的想到了:XSS漏洞. 通过查看源代码,我马上发现了问题的根源:未结束的标签.
帮我写一个能提取

那些你知道和不知道的千纸鹤

- Brandon - DIY - 果壳网
千纸鹤是一件经典折纸作品,理工男现在就要利用几何知识打破经典,开拓创新. 申明:本文所述作品(除最后一只翻转鹤)均属原创,如有雷同,纯属英雄所见略同. 你将需要的工具和材料有:. 10   一刀纸鹤(非原创). 12   DIYer签到处 12.1   大手牵小手. 正方形是用来折纸的一种完美形状,想要创新,首先就要突破正方形的限制.

社交搜索——百度知道,不如你我知道

- - 微博之博
本篇文章作者王德超,程序员一枚,创业在路上,微博@哀木涕啊. 当你想订购一台吐司机的时候,你会去哪儿寻找参考信息. 我想大概有许多人像我一样,习惯了使用Google 、百度或者Bing. 但他们真的会给我们最需要的答案吗. 作为一名使用微博3年以上的老围脖,突然发现自己在搜索答案时出现了另一个习惯.