个性化阅读的过去、现在和未来（一）·概述

标签：个性阅读过去 | 发表时间：2011-04-14 22:53 | 作者：旁观者蓝皮

出处：http://www.cnblogs.com/zhengyun_ustc/

个性化阅读的过去、现在和未来（一）·概述

郑昀 20110414

以前曾经撰文讲过Topic Engine的过去、现在和未来。Topic Engine是一个生生不息的应用方向，因为从News Group、邮件列表、聊天室、论坛、Google News、博客圈子、群组。。。，人们一直因话题（有人也叫主题，英文为Topic）而聚集而交友，话题一直在生生不息层出不穷，组织形式在不断变异。

现在再讲讲个性化阅读的过去、现在和未来，也算是这个话题的延续。

一、概念定义

泛泛地说，只要是根据用户的历史行为（发言、标签等数据，点击流、分享、收藏、推荐、跳过等动作），动态决定哪些资讯内容（论坛帖子、新闻资讯、博客、微博、等）呈现给用户，都叫个性化阅读。

二、历史阶段

2005年～2007年：

这个阶段还没有Social数据，所以：

首先需要用户选定对哪些分类频道感兴趣，比如历史、人文、明星、体育等。稍微聪明一点的做法，不让用户选分类，而是问用户几个问题，然后就大致匹配出用户的兴趣点。

其次，系统决定给用户展现哪些分类的资讯。

随着用户点击，资讯实时不断变化，点击越多，系统越了解用户的阅读喜好。

这阶段的问题是：

1、利用成熟的协同过滤算法，但由于都在追求实时计算，运算量较大，有一定技术门槛；

2、对用户背景还是不够了解，仅仅通过用户点击流终究太浅。

3、普遍存在冷启动问题。

2008年～2010年：

有了Twitter，有了Facebook，有了Social Graph，个性化阅读器纷纷利用Twitter/Facebook帐号登录，展现的资讯是用户自己好友的Timeline聚合，主要是合并那些被诸多好友推荐的热点链接、图片和视频。不过，这波潮过去之后，像http://thoora.com/ 、http://twittertim.es/等都没有找到足够的用户群，还没有像2005年杀出来的TechMeme那么成功。

这阶段的问题是：

1、依赖于Twitter/Facebook的Social Graph，依赖于好友推送，可供阅读的数据过少，可供计算的数据过少，限制了自身应用的发展；

2、除非与Twitter保持良好的关系，能拿到 Streaming Firehose 接口，提前积累用户数据，否则用户Timeline信息需要积累一段时间，造成大量用户登录后没有可阅读的数据。

2010年：

FlipBoard杀出重围，自动排版技术独步天下。

2011年：

随着国内新浪微博、豆瓣等拥有Interest Graph（兴趣图谱）+Social Graph（社交图谱）海量数据的网站崛起，成为主流数据源，如何把2005年到2010年这些探索择其优点都整合起来，成为一个大课题。

Zite的横空出世，被众人热捧为“Flipboard Killer”，强调的是基于社会化关系的个性化推荐阅读方式。而Flipboard目前的战略重点主要还是集成各种社会化应用及内容源，并以其创造性的阅读体验方式展现出来。国内已经有几家也在Zite的方向上，尤其是iPad应用上，动了起来。

social media

三、热门？还是个性化？

在2009年SXSW大会上，SheGeeks 直言不讳：『

热门内容（Popularity）已经过时了，某种程度上令人讨厌。

我不想知道什么是最流行的，Techmeme已经帮我做到了。我想知道什么东西和我相关。我们需要更多“相关性过滤服务”。』

此时，会有几种做法：

1、以热点资讯为主（先有蛋），以社交图谱为辅（后引入鸡）：将社交图谱引入热点资讯阅读中，像Quora（或中国的知乎）一样按人来隔离不同话题（不同热点）的讨论。Zite的方式类似于此。

2、以社交图谱为主：组织一度好友和二度好友的数据，做好数据挖掘。曾经有人在很久远的年代说过，“建立一个Social Network，每一个用户都推荐出自己喜欢的内容，那么被推荐得最多的，就一定是大多数人最受欢迎的内容。如果把这些推荐内容的用户区分成不同的群体，就会得到特定群体欢迎的内容。Digg的想法就源于此。不过，这需要用户有足够的动力去推荐自己喜欢的内容，否则，Network也无法形成”。

3、以人为阅读中心：有人很多年前说过“许多人的blog阅读体验和阅读闲谈专栏是相似的，他们选择读什么不读什么的判断依据不是话题，而是作者，因为只有这样才能保证阅读到的内容的质量”。

4、以Topic为中心：用户定义或发掘用户感兴趣的Topic，只要是一篇文章谈及了用户关注的某一个主题，那么就推送给他。或者来自于不同人的文章集中地探讨某个话题，那么把这些文章自动聚合为一个Dialogue（虚拟对话），推送给用户。

除了第一种做法之外，我曾经尝试过其他三种做法。在中国的大环境下，要么数据过少，要么数据质量不高，都不能很好地做到有“发现、探索”、“新鲜、有趣”的冲击力。

当Social能完整地提供三重元素时：
1、你的身份标识（Indentity）：Who you are；
2、你的联系人或圈子（Contacts）：Who you know；
3、你的网际行为（Activities）：What you do 。

那么，Social Graph，Interrest Graph，再联合热点资讯，揉入2005年以来的协同过滤算法，至少能做到make something people want吧。

四、Interest Graph的变化

    以前，郑昀针对不同人群做的信息聚合，单纯从内容分类（也就是靠自然语言处理的自动分类算法）做，属于从信息本身下手。这种方式有一个问题：
   某一类人群，虽然有一些集中的阅读点，但还有边缘的共同兴趣。举例，如IT人群，虽然共享和推荐的大多数是IT科技文章，但也涌现出很多受欢迎的兴趣点，如韩寒的文章，如冷笑话，如创意趣味产品。
    这也就是为何基于 Tag 方式的阅读模式，以及基于指定主题的追踪模式，都不容易持久耐用的原因。一个人群的阅读兴趣点是比较模糊的。对于一个人来说，如果一个信息过滤器供应点科技，供应点娱乐，适当补充些人文历史，就能保证一定的粘度。
    所以，郑昀后来觉得从内容分类，由于不引入人工，只靠比较大条的自然语言处理分类，对于博文、微博、论坛帖子等文字质量不稳定的信息会分得很粗糙，所以改变思路，从人群分类开始做。
    也就是，划分出目标人群，依靠人群来挑拣信息，NLP算法为辅。这样有一个额外的好处，人群的兴趣点在动态变，短期地变，长期地变，但由于锁定人群，所以筛选出来的信息也在变。而相比之下，自动分类做出的信息，隔几个月或半年后，就要重新训练机器，因为往往信息包含的语言特征变了。
    这也是信息聚合中的一个实际考虑点。

现在，中国也有了自己的Interest Graph，比如新浪微博，它的数据天然就表明一个人的兴趣喜好，以及连续波动，都可以跟踪和挖掘出来。以前依靠遍历Twitter、Google Reader、FriendFeed的好友所得到的社群分离，现在通过新浪微博等Social Graph都可以得到类似的。

五、人员配比

一般我对这个领域（Topic Engine啦、个性化阅读啦、Meme Tracker啦），研发人员配比是这么建议的：

爬虫2人，
文本挖掘4人（新词发现+分词+分类一个人，实体识别与发现+情感趋势分析一个人，事件识别与发现一个人，User Interest Profile一个人），
数据挖掘和分析2人，
Web前端展现（包括手持设备）3人，
产品经理1人，
12人是一个比较不错的开局。

待续。敬请期待。

郑昀于北京报道

作者: 旁观者发表于 2011-04-14 22:53 原文链接

评论: 0　查看评论　发表评论

最新新闻：
· 苹果前高管建议收购T-Mobile USA(2011-08-15 20:32)
· 谷歌CEO解释收购原因：为进一步强化Android(2011-08-15 20:25)
· 摩托罗拉移动股价暴涨60% 受谷歌收购提振(2011-08-15 20:24)
· iPhone手机被盗？ WaveSecure为您保驾护航(2011-08-15 20:22)
· 埃及博客被控通过Facebook煽动暴力(2011-08-15 20:17)

编辑推荐：擦亮自己的眼睛去看SQLServer之谈谈锁机制

网站导航：博客园首页我的园子新闻闪存小组博问知识库

相关 [个性阅读过去] 推荐：

个性化阅读的过去、现在和未来（一）·概述

- 蓝皮 - 博客园-旁观者

个性化阅读的过去、现在和未来（一）·概述. 以前曾经撰文讲过Topic Engine的过去、现在和未来. Topic Engine是一个生生不息的应用方向，因为从News Group、邮件列表、聊天室、论坛、Google News、博客圈子、群组. ，人们一直因话题（有人也叫主题，英文为Topic）而聚集而交友，话题一直在生生不息层出不穷，组织形式在不断变异.

个性化阅读的过去、现在和未来（二）·实作

- sasiky - 博客园-旁观者

前一篇：《个性化阅读的过去、现在和未来（一）·概论》，今日继续此话题. 前面说到Topic Engine/个性化阅读/Meme Tracker这几个方向所需要的研发团队大致是12个人起. 下面着重说一下在现如今如何做个性化阅读. Zite 的战略就是直接从Social Graph+Interest Graph切入，通过将Google Reader、Twitter、Facebook等拥有Interest Graph图谱的社会化数据导入，从而获得用户初始的兴趣爱好及社会化关系，由此引发阅读推荐，有效避免了推荐引擎的“冷启动”问题.

酷云阅读：个性化泛阅读应用

- - 天涯海阁|Web2.0Share

“酷云阅读”是一款个性化泛阅读软件. 它通过语义分析技术对文章、视频内容进行归类整理，通过用户行为分析绘制用户肖像，由智能推荐算法将内容推送给用户，并根据用户对内容的反馈不断优化推荐效果. 智能云端最懂你：采用语义分析技术对文字、音频、视频信息进行归类整理，并根据用户的阅读习惯、喜好和好友关系推送内容.

推酷——个性化你的阅读

- - 商业不靠谱

以下文字来自创业团队，不代表本站观点. 为了支持起步阶段的创业公司，拉抬新项目的影响力，bukop.com面向所有创业的朋友提供无偿报道服务，你有任何创新项目、新服务或者新网站想通过bukop进行推广，都可以将文章发送到[email protected] :. 推酷上线于2013年4月，创建推酷主要是因为创始人在使用Google Reader过程中遇到的诸多不便.

指阅团队谷文栋谈「个性化」阅读

- - 动点科技-CN.TechNode.com

以下是指阅团队谷文栋《「个性化」时代》原文全文（对于原文段落进行了编辑）. 一、互联网大佬对于个性化的态度. 2011年初我发表了一篇文章《搜索已死，推荐上位》，结果证明实际情况蛮配合的，2011年可以说是个性化推荐爆发的一年. 我订阅了推荐引擎/个性化推荐等几个微博关键字，眼睁睁地看着相关的微博内容蹭蹭地往上涨，懂的不懂的不懂装懂的打酱油的都在提个性化，甚至连僵尸帐号都在掺和.

微观：移动个性化阅读应用

- - 天涯海阁|Web2.0Share

微观是由点趣科技推出的移动个性化阅读应用，只要选择你的兴趣点，就会为你推荐你感兴趣并且适合移动阅读的内容. 使用阅读，推荐的内容就会越准确，同时也可以发现兴趣相同的朋友. 内容精选，并且是最近较热，或比较流行的；. 内容经过一定方式的处理，更加适合移动的阅读，并且内容推荐不会重复；. 3.个性化推荐，体现从聚合到挖掘和分析的进步；.

无觅推出个性化阅读社区

- - 天涯海阁|Web2.0Share

天涯海阁应该是无觅网相关文章插件的第一个用户，无网觅从网站相关文章插件到无觅网络，再到现在的个性化阅读社区，无觅网一直都在探索，不过我相信个性化阅读社区可能是他们真正想做的东西. 无觅个性化阅读社区开始会根据用户绑定的微博，分析用户兴趣，进行推荐；之后会根据用户“喜欢按钮”等行为，来不断学习，优化推荐，并且能够根据用户兴趣实时调整和刷新推荐结果.

指阅丁钧：做个性化阅读的指尖“秘书”

- - 零零发-||-IT航海日志

作者：肖梦鸯|出处： DoNews| 2012-03-20 17:32:21 责编：肖克锋. 到2010年，微博为人们所熟知，也给简网提供了一个好的推送出口. “同事做了一个API，把我们的内容推送到微博上去，发现粉丝数增长的速度越来越快”，这样通过微博把语义分析技术转化的成果推给了用户.

国内个性化阅读服务汇总

- - 动点科技-CN.TechNode.com

所谓个性化阅读，个人的理解就是基于用户的兴趣（兴趣的获取可以是基于现有的社会化服务或者用户的阅读过程），生成用户感兴趣的阅读内容，其核心在于用户兴趣的获取和基于用户兴趣的内容推荐. 国外比较著名的个性化阅读应用是Zite. 微观是由点趣科技推出的移动个性化阅读应用，只要选择你的兴趣点，就会为你推荐你感兴趣并且适合移动阅读的内容.