个性化推荐产品研究

标签: 技术 科研 个性化推荐 | 发表时间:2011-08-08 10:15 | 作者:丕子 $n0wd0wn
出处:http://www.zhizhihu.com

最近在微博上看到好几款做微博过滤的产品,跟两个月前自己的思路比较接近。但通过最近一段时间的思考,有了一些新的发现和总结。

个性化推荐本来是一个技术性很强的话题,但本文重点仅仅讨论推荐过程中的“道理”,不涉及任何深邃难懂的技术。本文的讨论主要以Zite和当前几款微博过滤产品基本特征作为参照。为了避免不必要的争议,除新浪微博官方功能外,不指明其他具体产品名称。

一、基于SNS的Web阅读推荐

随着近年来技术发展,如自然语言处理,数据挖掘,机器学习等领域已经形成了一批可工业化的技术,为高度个性化的内容推荐奠定了技术基础。

有了加工办法,还要有原料,才能做出产品。个性化推荐亦然。个性化推荐,无非就是将用户可能喜欢的内容挑选出来呈现给他/她。而喜欢又受两个主 要因素影响:(1)内容与用户兴趣的相关程度;(2)内容本身的质量(热门度)。换句话说,就是需要知道用户是谁?他喜欢什么样的东西?这个东西是不是用 户喜欢的那些类型?

用概括性文字表述就是:

  1. 用户身份标识
  2. 用户的兴趣发现
  3. 内容的特征识别

非常庆幸,Social为个性化内容推荐提供了以上几乎所有的原料:用户有帐号标识自己;用户的兴趣可以根据他的发帖,网络关系等历史行为数据挖掘获得;内容的类型特征可以通过自然语言处理技术获得。这一切太完美了!

Zite,可以说就是这样一个生逢其时的产品,完美的将这些结合在了一起。通过输入Twitter或者Google Reader帐号,Zite会分析用户的阅读喜好(兴趣),然后根据用户喜好选取新闻/文章中与用户兴趣匹配度高的的结果呈现给用户,确实极大地提升了阅 读的效率和质量。

二、微博信息过滤和推荐

沿着上面的思路一路前行,似乎对微博这个正在趋于爆炸的信息宝库进行某种处理,根据用户的喜好进行筛选过滤,推送用户关心的内容,会是一个不错的产品形式。但仔细思考,会发现有两个问题有待解决:

1、热门度

必须注意到一个现象:微博作为一种轻量级,参与度高的公开信息源。单从条目数量上讲,微博每天的UGC数量可能比之前整个互联网一个月的产量还 高,可内容却参差不齐!于是,内容的质量成了一个问题。比如喜欢笑话的用户,推荐给他一个高质量的笑话,他会很高兴;但同样是笑话,推荐一个质量平平的笑 话,可能反而是一种垃圾信息。

可见,做微博信息推荐需要更加重视一个因素:内容的质量(热门度)。基于机器学习等方法,目前自然语言处理技术在文本分类等工作的精度和效率, 已经达到了工业化的标准。但对于语义方面的识别和处理,还是很不成熟的。目前还没有任何自然语言处理技术能对一段文章的观点、文采进行质量评估。靠谱的质 量评估办法,还得依靠群众对文章的反馈来获得,即热门度。

文章热门度的评估并不困难(特别对于微博),看看多少人对这条微博进行了评论和转发就可以判定它的热门程度了。但微博作为一种实时性、瞬时性很 高的SNS产品,一方面强调内容质量,一方面还有参与和粘性问题需要考虑。依赖专家型用户反馈的推荐系统,实时性必定大打折扣。这也是为什么目前多款微博 过滤、推荐产品的时序比较错乱的原因了(其中包括新浪微博官方提供的兴趣阅读功能)。这自然牺牲了不少用户感受。然而Zite这种产品形式对实时性要求不 高,无须考虑这个问题。

2、用户期望高

微博过滤和Zite阅读推荐还有一个差别。作为阅读推荐,只要把用户感兴趣的领域文章中,选取热门度较高的一些推送给用户,就可以很好满足用户 期望。如果漏掉了一些重要的热门新闻,或者掺杂了少量用户并不关心的内容,只要具备一定相关性,都不会明显降低用户的阅读感受。

但微博就不同了。微博用户的关注已经是用户初筛过的结果,他当然不希望漏掉这些用户的任何重要信息;另一方面,作为过滤器形式存在的产品,用户对它的无关内容过滤能力的期望也会相对比较苛刻。综合以上两点,微博过滤器的用户满意度及格线相对比较高!

3、再谈热门度

除了热门度,还有一些难以具体化的因素影响着用户的喜好。例如:很多数用户可能会有这种经历,一条转发量并不是很高的微博,却可能是我非常喜 欢,非常认可的。SNS的一个重要特征是,用户的喜好很大程度上取决于用户的好友们。用户对内容的认可程度往往依赖于他对信息源的认可程度。你不得不承 认,即使都是你关注的用户,在你心中的分量是完全不同的。

问题是,哪些关注是用户的最爱呢?很多时候,鞋好不好,只有脚知道。用户通常不会主动告诉你!

4、 Facebook的EdgeRank算法是那颗银弹吗

作为SNS的鼻祖,Facebook同样面临信息过载的问题。它目前使用一种名叫EdgeRank的推荐算法。从原理和工作流程上,它确实都很 简单:你对好友的任何动都被称作一个edge(包括评论,转发,赞,……),根据动作的不同,你的每次动作都会被计算一个分值,所有动作的累加得分表达了 你对该好友的相关程度,这个总分将会影响该好友的微博是否跟容易再你的时间线中出现。

但显然,EdgeRank更多的考虑了人与人的关系因素,而对话题因素考虑较少;对内容质量更是毫无涉及。对于关系至上的SNS,这个算法是有效的。但对于微博这种Social Media,他还有效吗?

5、用户细微喜好差别

高度个性化的推荐,无论产品形式如何变化,最终落脚点还是对用户兴趣的深入掌握。要想对用户特征有深入的掌握,除了加强技术手段加以识别以外, 充分收集用户数据也是一个非常重要的因素。俗话说,巧妇难为无米之炊。很多很重要的用户特征,比如用户对某些细节领域的关注;或是用户对某些具体关注用户 有特别的重视程度,这些从他的历史数据中并不足以得到明确的判断。这个也增加了微博过滤的难度和复杂性。

我们看看Zite是如何解决这个问题的。Zite面向篇幅较长的Web内容,用户首先看到的是文章分类和文章标题,而不是正文。用户点击标题后 才进入文章开始阅读。这个自然流程实际隐藏着一个惊天秘密—-“我对这篇文章内容感兴趣”!是的,再高明的用户兴趣识别算法也需要不断与用户磨合反馈,倾 听用户的声音!

但微博过滤就不妙了,微博篇幅较短,强行增加一个点击进入的产品流程,无疑是用户体验上的自杀。那么给用户一个“Like”按钮会不会解决这个 问题呢?我的答案是悲观的,用户的参与动力可能难以保证。这个需要结合第一点(热门度)和第二点(用户期望)看,一个初始状态不能较高满足用户需求的产 品,用户参与动力是很难得到保证的。用户的耐心是每个新产品推广中最昂贵的资源。

结论:

为了提升用户需求的满足程度,必须具备高质量的用户兴趣识别能力;并在第一时间切实的满足用户的某项需求,至少达到及格线;最后,产品还需要具 备很强的用户特征(喜好)收集能力,让你的每个试用用户,最终都能成为你产品的忠实粉丝,并以此感染他周围的人,帮助产品快速传播。做好社会化推荐,三分 技术,七分产品和运营。

万事开头难,推动微博过滤/推荐世界的原始第一动力再哪里?

本文来自曾庆锐的投稿,点这里关注他的新浪微博.来自: www.36kr.com

您可能也喜欢:

个性化推荐与百分点

[个性化推荐] 回忆Netflix百万美金大奖激烈之过程

分析Twitter、新浪微博、腾讯微博的用户推荐

情境搜索与个性化推荐:旨在“索”,“搜”辅之

搜索时代->推荐时代
无觅

相关文章

相关 [个性 产品 研究] 推荐:

个性化推荐产品研究

- rosa - 36氪
编者按:本文来自曾庆锐的投稿,点这里关注他的新浪微博,点这里查看@曾庆锐之前在36氪上的文章:微博应用的7种商机. 最近在微博上看到好几款做微博过滤的产品,跟两个月前自己的思路比较接近. 但通过最近一段时间的思考,有了一些新的发现和总结. 个性化推荐本来是一个技术性很强的话题,但本文重点仅仅讨论推荐过程中的“道理”,不涉及任何深邃难懂的技术.

阿里妈妈广告产品研究

- - 牛国柱
阿里近几年广告应收的增速非常迅速,在2012年,为站长和淘宝客带来的分成收入突破了30亿元,比2011年翻了一番( http://roll.sohu.com/20121224/n361391164.shtml),非常大的成就. 那么阿里是如何做到这一成就的呢. 阿里妈妈第一次出现是在2007年,定位是全网的广告交易平台,使命是“让天下没有难做的广告”,没错,和我们很耳熟的一句话——让天下没有难做的生意很像,是阿里战略在广告市场的延续.

腾讯广告产品布局研究

- - 牛国柱
在了解腾讯的广告产品之前,有必要了解一下腾讯的业务结构. 在2012年5月,腾讯对业务结构进行了重组,将原有的业务系统制(Business Units,BUs)升级为事业群制(Business Groups,BGs),从四条业务系统改为六大事业群,形成以QQ、微信为核心的两大布局. TEG(Technology & Engineering Group):技术工程事业群,由原来的研究院和运营线组成,集成了腾讯公司的技术运营、研发、客服等条线,为其他五大群及电商公司提供强大的技术支撑,由卢山负责.

开源ESB-Talend产品研究

- - 人月神话的BLOG
对于ETL部分要注意,当前用的更多的是ELT,其最大的差别就在于首先是将源数据库中的数据抽取到目标数据库中,然后再在目标数据库中进行相应的数据映射和转换等操作,刚方法比传统的ELT在性能方面有明显的优势. 在Oracle ODI产品里面当前即用的ELT方式,在Talend产品里面可以看到这部分也是通过ELT方式来实现,但是在ESB产品里面可以看到,对于ELT方式的数据集成提供的相应组件并不多,要实现负责的数据转换和处理往往并不容易.

研究:职业社交类产品的探索之路

- - TECH2IPO创见
本文作者:Gauin,来自于 作者博客. 10月18日在 TECH2IPO 发表《 活动类产品的探索之路》之后,受到一些同学的关注,同时也与几位大佬私下进行了探讨. 《活动类产品的探索之路》与此文《职业社交类产品的探索之路》分为上下篇. 下篇中沿用到上篇的观点,不会在此赘述,请见谅. 此文为我2009年9月至2013年1月这3年来在职业社交类产品的探索和总结.

关于个性化的产品

- 007 - 不周山
随着近年来互联网公司对个性化服务的关注程度在提高,开始有很多人从学术、从产品、从实现上研究推荐系统这个存在已久却颇为潮流的事物. 一个产品的成功,需要建立在管理人员、产品经理及技术人员对相关知识体系里某些基本概念的共识,及由此产生的默契,避开无谓的争执与误解. 这里,我要根据自己的理解,斗胆给一些模糊的概念下一个定义.

机器学习在旅游与酒店个性化的研究

- - 标点符
当我们访问Netflix、 YouTube 或Amazon时,我们认为个性化推荐是理所当然的. 这些服务已经探索我们的行为很长一段时间了,今天已经足够了解我们,可以让我们参与进来,或者根据我们的喜好提出有价值的购买建议. 对于旅游体验而言,情况略有不同. 根据 Sabre 的数据,尽管69%至75%的人喜欢以这种或那种形式提供个性化的旅游体验,但这在该行业还不常见.

联通研究院自主研发iOS产品 可支持iPad通话

- oky - cnBeta.COM
9月23日消息,中国联通研究院副院长黄文良昨日在出席Macworld苹果大会时透露,联通研究院已较早启动了iOS产品的自主研发工作,部分实验性产品已在AppStore上架进行测试和销售. 据了解,在联通研究院开发的多款产品中,近期有六款产品已经或者即将登陆AppStore.