[原]机器学习在热门微博推荐系统的应用

标签： | 发表时间：2018-01-25 14:41 | 作者：qq_40027052

出处：http://blog.csdn.net/qq_40027052

近年来，机器学习在搜索、广告、推荐等领域取得了非常突出的成果，成为最引人注目的技术热点之一。微博也在机器学习方面做了广泛的探索，其中在推荐领域，将机器学习技术应用于微博最主要的产品之一——热门微博，并取得了显著的效果提升。

热门微博的机器学习推荐

协同过滤推荐是目前业界常用的推荐算法之一。协同过滤推荐是利用users和items的关系矩阵来对user和item进行建模，从而进行推荐的一类算法。其主要分为两种：基于user的协同过滤推荐和基于item的协同过滤推荐。在热门微博业务场景下，一个item是指一条微博。下面介绍基于用户的协同过滤推荐和基于微博的协同过滤推荐两方面的实践。

表1 User－Item关系矩阵

大规模user-based协同推荐

基于用户的系统过滤推荐的基本原理是：某用户的相似用户群喜欢什么，就给该用户推荐什么。

实践中，基于用户的系统过滤推荐过程就是以下步骤：

为当前用户找到他的相似用户群；
获取该用户群在历史一段时间内喜好的若干微博作为候选；
计算该用户群对各个候选微博的喜好程度；
将喜好程度最高的N条微博推荐给当前用户。

上述步骤中，最关键的是a。用户的相似度刻画，直接影响推荐的准确度；用户的相似用户群的规模，直接影响推荐的个性化程度。相似用户群的方案有很多，常见的有聚类、K近邻。它们的优劣对比如下。

表2 聚类、K近邻方案对比

最终，根据我们的业务场景，选择了聚类方案。鉴于业务的特性，我们还要对聚类结果有额外的要求：每个类别内包含的优质用户数量要尽量相近。我们的解决方案是只用优质用户做训练同时保证聚类均匀，全部用户做预测。所以接下来要解决的问题是选择聚类算法、用户的向量表征、控制聚类均匀。

尽管聚类算法有很多，但它们依然基本上都还是在K-Means算法的框架下，因此我们直接选用K-Means算法。关于用数学向量表示用户。值得注意的是，当解决实际聚类问题时，一般情况下，问题对象的向量表征比聚类算法本身对最终效果影响更大。

首先，我们考虑直接用关系矩阵的行向量作为用户的向量表示。在微博推荐的场景下，item的数量是快速增长的，因此只能使用历史上一段时间内的用户-微博关系矩阵。同时，矩阵是集群稀疏的，当我们用较短历史数据训练聚类时，效果表现不好。所以，我们尽可能拉长历史来保证用户向量中包含充足的信息，然而，K-Means对高维数据的训练效率极低。我们尽量平衡训练效率和聚类效果，但效果很差，各个类别规模极其不均匀，不能满足需求。

所以，我们考虑了三个降维方案：LDA、Word2Vec、Doc2Vec。

LDA：虽然LDA训练出来的主题分布可以作为特征向量，但是LDA本身不强调向量间距离的概念，可与后面K-Means算法的训练过程不相匹配，所以效果不佳，淘汰。
Word2Vec：强调向量间的距离，适合K-means。但是当使用Word2Vec时我们要微博ID当成句子ID，微博的阅读者序列作为句子内容，用户ID作为词。按照微博的特性，这么处理的话，语料里“句子”长度的分布会非常不均匀。所以最终也没有选用。
Doc2Vec：强调向量间的距离，适合K-means。把用户ID当成句子ID、用户的阅读序列作为句子内容，微博ID作为词进行训练时，语料里“句子”长度的分布会均匀很多，效果较好。

所以最终选择了Doc2Vec对用户向量进行降维。然后使用低维向量进行聚类，结果明显改善，类别规模变得很均匀，符合我们的需求。

在线部分，在线部分只需要记录几小时内每个聚类下的用户群体对各个微博的行为，经过简单的加权计算、排序、取Top。当为某用户推荐时，只需查到相应的聚类ID对应的推荐列表。在线计算开销极小。

大规模item-based协同推荐

基于微博的协同过滤推荐的基本原理是：如果看了微博A的用户很大比例都去看了微博B，那么应该给只看了微博A的用户推荐微博B。这个原理的实现就是计算任意两个微博的相关性。关键点时设计相关性公式。我们迭代了三个版本的相关性公式。

第一版，我们将相关性抽象为：

具体实现是按上述公式计算两两微博的相关性后，为每个微博按预设阈值节选可推荐相关微博。这个可以推荐相关微博列表，用于即时推荐模块。当用户点击某条微博后，在下次刷新时候会推荐该条微博的相关微博。由于微博内容实效性比较强，这种推荐方式可以捕捉用户很及时的阅读需求，所以推荐的准确率很高。然而，上述方法的召回率比较低。

第二版重点提升召回率。通过分析发现，召回率低的原因是用户-微博矩阵特别稀疏，两条微博在一个用户浏览时的共现次数特别少。所以设计了新的公式：

在公式中我们加入了变量expo（B），表示B在用户的页面里曝光了。按新公式实现后，召回大幅度提升。

第三版，我们试图解决关系矩阵稀疏的问题。在微博场景中，很多微博是相似的，但是它们拥有不同的微博ID。这会天然地造成矩阵稀疏，从而相关性计算不准确。举个例子：

假设B _i和B _j是描述的同一个内容，且R _ABi和R _ABj都略低于阈值，那么B _i和B _j是不能作为A的协同推荐微博的，这显然是不合理的。

为了解决这个问题，我们改进了算法。首先将相似微博B _i和B _j聚合成B，然后计算相关性。流程如下：

改进后，覆盖率有得到了进一步的提升。

机器学习效果评估

对于协同过滤推荐，我们设计了一个量度m，来模拟估计上线后实际效果。假设有N+1天的历史行为日志。首先，用1-N天的用户-微博矩阵，为每一个用户计算出第N+1天协同推荐的候选微博集合C。然后将第N＋1天的真实曝光微博集合E与C做交集，得到集合Ec；将第N＋1天的真实点击微博集合A与C做交集，得到集合Ac。最后计算Ac／Ec作为量度。

对于排序算法，采用了离线AUC评估和线上的ABTest评估。

机器学习应用于热门微博推荐系统后，业务指标和用户体验都得到了显著提高。

总结和展望

我们将机器学习相关技术应用于热门微博业务，并结合业务特色对算法做了进一步的拓展。

推荐算法方面，基于用户的协同过滤推荐我们使用user embedding＋Kmeans方案来平衡算法效果、离线计算规模和线上响应速度。基于微博的协同过滤推荐我们升级了两次相关度计算公式，来解决行为稀疏和重复内容的导致的数据稀疏的问题。

排序算法方面，大规模特征组合在特征工程实践中总结的一些规律和原则，多目标机器学习排序是为了兼顾多个业务目标而做的尝试和探索，分片线性模型是结合热门微博业务知识完善线性模型的结构和效果。

未来推荐和排序算法仍有很大的提升空间，在以下两方面：

深度学习和embedding应用于热门微博推荐；
海量uid应用于热门微博排序模型，进一步提升模型个性化。

作者简介：
侯雷平，微博资深算法工程师，主要负责机器学习算法在热门微博个性化排序、个性化推荐等业务中的应用。毕业于南开大学，熟悉推荐系统、广告系统。研究方向是机器学习排序、自然语言处理、个性化推荐等。
苏传捷，微博算法工程师，AI lab项目成员。主要研究方向是推荐系统、自然语言处理。曾负责文本分类、实体识别、用户建模以及特征工程。目前专注于深度学习与增强学习在推荐系统的应用和创新。
朱红垒，微博兴趣流研发技术负责人，算法总监。毕业于哈尔滨工业大学，目前负责热门微博、同城、访客等微博兴趣流业务的技术研发工作。主要技术方向为机器学习、推荐系统、自然语言处理、大数据等。

作者：qq_40027052 发表于2018/1/25 14:41:49 原文链接

阅读：441 评论：0 查看评论

[原]机器学习在热门微博推荐系统的应用

热门微博推荐系统介绍

热门微博的机器学习推荐

热门微博的机器学习排序

机器学习效果评估

总结和展望

相关 [机器学习微博推荐系统] 推荐：