个性化阅读的过去、现在和未来(一)·概述

标签: 阅读 过去 未来 | 发表时间:2011-04-14 14:53 | 作者:旁观者 蓝皮
出处:http://www.cnblogs.com/zhengyun_ustc/

个性化阅读的过去、现在和未来(一)·概述

郑昀 20110414

    以前曾经撰文讲过Topic Engine的过去、现在和未来。Topic Engine是一个生生不息的应用方向,因为从News Group、邮件列表、聊天室、论坛、Google News、博客圈子、群组。。。,人们一直因话题(有人也叫主题,英文为Topic)而聚集而交友,话题一直在生生不息层出不穷,组织形式在不断变异。

    现在再讲讲个性化阅读的过去、现在和未来,也算是这个话题的延续。

一、概念定义

    泛泛地说,只要是根据用户的历史行为(发言、标签等数据,点击流、分享、收藏、推荐、跳过等动作),动态决定哪些资讯内容(论坛帖子、新闻资讯、博客、微博、等)呈现给用户,都叫个性化阅读。

二、历史阶段

2005年~2007年:

    这个阶段还没有Social数据,所以:

首先需要用户选定对哪些分类频道感兴趣,比如历史、人文、明星、体育等。稍微聪明一点的做法,不让用户选分类,而是问用户几个问题,然后就大致匹配出用户的兴趣点。

其次,系统决定给用户展现哪些分类的资讯。

随着用户点击,资讯实时不断变化,点击越多,系统越了解用户的阅读喜好。

这阶段的问题是:

1、利用成熟的协同过滤算法,但由于都在追求实时计算,运算量较大,有一定技术门槛;

2、对用户背景还是不够了解,仅仅通过用户点击流终究太浅。

3、普遍存在冷启动问题。

2008年~2010年:

    有了Twitter,有了Facebook,有了Social Graph,个性化阅读器纷纷利用Twitter/Facebook帐号登录,展现的资讯是用户自己好友的Timeline聚合,主要是合并那些被诸多好友推荐的热点链接、图片和视频。不过,这波潮过去之后,像http://thoora.com/http://twittertim.es/等都没有找到足够的用户群,还没有像2005年杀出来的TechMeme那么成功。

这阶段的问题是:

1、依赖于Twitter/Facebook的Social Graph,依赖于好友推送,可供阅读的数据过少,可供计算的数据过少,限制了自身应用的发展;

2、除非与Twitter保持良好的关系,能拿到 Streaming Firehose 接口,提前积累用户数据,否则用户Timeline信息需要积累一段时间,造成大量用户登录后没有可阅读的数据。

2010年:

    FlipBoard杀出重围,自动排版技术独步天下。

2011年:

    随着国内新浪微博、豆瓣等拥有Interest Graph(兴趣图谱)+Social Graph(社交图谱)海量数据的网站崛起,成为主流数据源,如何把2005年到2010年这些探索择其优点都整合起来,成为一个大课题。

    Zite的横空出世,被众人热捧为“Flipboard Killer”,强调的是基于社会化关系的个性化推荐阅读方式。而Flipboard目前的战略重点主要还是集成各种社会化应用及内容源,并以其创造性的阅读体验方式展现出来。国内已经有几家也在Zite的方向上,尤其是iPad应用上,动了起来。

social media

三、热门?还是个性化?

    在2009年SXSW大会上,SheGeeks 直言不讳:『

热门内容(Popularity)已经过时了,某种程度上令人讨厌。

我不想知道什么是最流行的,Techmeme已经帮我做到了。我想知道什么东西和我相关。我们需要更多“相关性过滤服务”。

    此时,会有几种做法:

1、以热点资讯为主(先有蛋),以社交图谱为辅(后引入鸡):将社交图谱引入热点资讯阅读中,像Quora(或中国的知乎)一样按人来隔离不同话题(不同热点)的讨论。Zite的方式类似于此。

2、以社交图谱为主:组织一度好友和二度好友的数据,做好数据挖掘。曾经有人在很久远的年代说过,“建立一个Social Network,每一个用户都推荐出自己喜欢的内容,那么被推荐得最多的,就一定是大多数人最受欢迎的内容。如果把这些推荐内容的用户区分成不同的群体, 就会得到特定群体欢迎的内容。Digg的想法就源于此。不过,这需要用户有足够的动力去推荐自己喜欢的内容,否则,Network也无法形成”。

3、以为阅读中心:有人很多年前说过“许多人的blog阅读体验和阅读闲谈专栏是相似的,他们选择读什么不读什么的判断依据不是话题,而是作者,因为只有这样才能保证阅读到的内容的质量”。

4、以Topic为中心:用户定义或发掘用户感兴趣的Topic,只要是一篇文章谈及了用户关注的某一个主题,那么就推送给他。或者来自于不同人的文章集中地探讨某个话题,那么把这些文章自动聚合为一个Dialogue(虚拟对话),推送给用户。

    除了第一种做法之外,我曾经尝试过其他三种做法。在中国的大环境下,要么数据过少,要么数据质量不高,都不能很好地做到有“发现、探索”、“新鲜、有趣”的冲击力。

    当Social能完整地提供三重元素时:
1、 你的身份标识(Indentity):Who you are;
2、 你的联系人或圈子(Contacts):Who you know;
3、 你的网际行为(Activities):What you do 。

    那么,Social Graph,Interrest Graph,再联合热点资讯,揉入2005年以来的协同过滤算法,至少能做到make something people want吧。

四、Interest Graph的变化

    以前,郑昀针对不同人群做的信息聚合,单纯从内容分类(也就是靠自然语言处理的自动分类算法)做,属于从信息本身下手。这种方式有一个问题:Social Media Iceberg
   某一类人群,虽然有一些集中的阅读点,但还有边缘的共同兴趣。举例,如IT人群,虽然共享和推荐的大多数是IT科技文章,但也涌现出很多受欢迎的兴趣点,如韩寒的文章,如冷笑话,如创意趣味产品。
    这也就是为何基于 Tag 方式的阅读模式,以及基于指定主题的追踪模式,都不容易持久耐用的原因。一个人群的阅读兴趣点是比较模糊的。对于一个人来说,如果一个信息过滤器供应点科技,供应点娱乐,适当补充些人文历史,就能保证一定的粘度。
    所以,郑昀后来觉得从内容分类,由于不引入人工,只靠比较大条的自然语言处理分类,对于博文、微博、论坛帖子等文字质量不稳定的信息会分得很粗糙,所以改变思路,从人群分类开始做。
    也就是,划分出目标人群,依靠人群来挑拣信息,NLP算法为辅。这样有一个额外的好处,人群的兴趣点在动态变,短期地变,长期地变,但由于锁定人群,所以筛选出来的信息也在变。而相比之下,自动分类做出的信息,隔几个月或半年后,就要重新训练机器,因为往往信息包含的语言特征变了。
    这也是信息聚合中的一个实际考虑点。

    现在,中国也有了自己的Interest Graph,比如新浪微博,它的数据天然就表明一个人的兴趣喜好,以及连续波动,都可以跟踪和挖掘出来。以前依靠遍历Twitter、Google Reader、FriendFeed的好友所得到的社群分离,现在通过新浪微博等Social Graph都可以得到类似的。

五、人员配比

    一般我对这个领域(Topic Engine啦、个性化阅读啦、Meme Tracker啦),研发人员配比是这么建议的:

爬虫2人,
文本挖掘4人(新词发现+分词+分类一个人,实体识别与发现+情感趋势分析一个人,事件识别与发现一个人,User Interest Profile一个人),
数据挖掘和分析2人,
Web前端展现(包括手持设备)3人,
产品经理1人,
12人是一个比较不错的开局。

待续。敬请期待。

郑昀 于北京报道

作者: 旁观者 发表于 2011-04-14 22:53 原文链接

评论: 0 查看评论 发表评论


最新新闻:
· 苹果前高管建议收购T-Mobile USA(2011-08-15 20:32)
· 谷歌CEO解释收购原因:为进一步强化Android(2011-08-15 20:25)
· 摩托罗拉移动股价暴涨60% 受谷歌收购提振(2011-08-15 20:24)
· iPhone手机被盗? WaveSecure为您保驾护航(2011-08-15 20:22)
· 埃及博客被控通过Facebook煽动暴力(2011-08-15 20:17)

编辑推荐:擦亮自己的眼睛去看SQLServer之谈谈锁机制

网站导航:博客园首页  我的园子  新闻  闪存  小组  博问  知识库

相关 [阅读 过去 未来] 推荐:

个性化阅读的过去、现在和未来(一)·概述

- 蓝皮 - 博客园-旁观者
个性化阅读的过去、现在和未来(一)·概述.     以前曾经撰文讲过Topic Engine的过去、现在和未来. Topic Engine是一个生生不息的应用方向,因为从News Group、邮件列表、聊天室、论坛、Google News、博客圈子、群组. ,人们一直因话题(有人也叫主题,英文为Topic)而聚集而交友,话题一直在生生不息层出不穷,组织形式在不断变异.

个性化阅读的过去、现在和未来(二)·实作

- sasiky - 博客园-旁观者
前一篇:《个性化阅读的过去、现在和未来(一)·概论》,今日继续此话题.     前面说到Topic Engine/个性化阅读/Meme Tracker这几个方向所需要的研发团队大致是12个人起. 下面着重说一下在现如今如何做个性化阅读.     Zite 的战略就是直接从Social Graph+Interest Graph切入,通过将Google Reader、Twitter、Facebook等拥有Interest Graph图谱的社会化数据导入,从而获得用户初始的兴趣爱好及社会化关系,由此引发阅读推荐,有效避免了推荐引擎的“冷启动”问题.

未来的阅读

- xj - 左岸读书_blog
雪茉莉灵感突至,写了一篇对未来阅读的设想. 2010年年末的时候,听了一场主题为“新媒体的未来”的讲座,引发了我对未来阅读模式的思考,在我的想象中,未来的阅读体验应该是这样的:. 下班的途中,坐在车上,我从包包里拿出了我的“墨宝”,开始阅读. “墨宝”(Mobile Book Reader)是类似于Ipad的东东,但是比Ipad轻、薄、更小巧,更时尚,功能更强大,使用更方便.

社会化阅读:阅读的未来

- waco - 互联网的那点事...
本文来自MTC联合创始人,社会化阅读观察员钟雄的投稿,新浪微博@钟雄这Y. 从传统阅读到数字阅读,不仅是媒介的变化,更是阅读习惯的改变,它降低了阅读门槛,提高了获取知识的效率,推动了文明的进程,更催生了网络原创文学. 但是,看到自己想看的内容,并与志同道合的朋友交流分享的需求并没有被很好的满足,因此以读者为中心,基内内容获取个性化,分享交流社区化的社会化阅读正成为阅读的未来.

过去是未来最好的向导

- 在沙漠中游泳 - 柴静·观察
   “或许我也热爱自己的国家,但我小心翼翼地不让他们知道. 因为一个人可能会一辈子披着一件爱国主义的外衣,衣衫褴褛,招摇过市,不仅在中国,而且......>>点击查看新浪博客原文.

大牌Logo的过去与未来

- polycount - Rologo 标志共和国
在著名品牌的Logo简洁成风的今天,大牌Logo们是否会继续简洁下去我们不得而知. 不过昨天StockLogos恶搞了一组图,把苹果、IBM、微软、LG、大众、星巴克等著名品牌在几十年后的Logo“预测”出来. 不过大家看到诺基亚2015年的Logo是块空白的不要觉得奇怪,这是在揶揄诺基亚熬不到2015.

IDC:HTML5的过去、现在与未来

- - CSDN博客互联网推荐文章
IDC应用开发研究主管 Al Hilwa最近撰写并发布了一份研究报告: HTML5演进状态. 在报告中,Hilwa力图评估迄今为止所取得的进步和当前的状态,并对HTML5作为统一Web平台的未来进行了展望. 该报告指出,最初HTML5被看作是“一套统一的技术,用于横跨各类型客户侧平台的应用开发”.

IPAD阅读体验之杂志的未来

- Yifang - 科学家家
我以后会从一个学者的专业阅读角度去详细讲如何用IPAD阅读论文,我现在正在慢慢告别打印论文的时代. IPAD的Papers功能是强大的,里面内置的几大学术论文搜索引擎非常犀利,经济学者常用两个:Jstor和Google Scholar. 至于在PDF文档中划线打勾做各种记号,记笔记等等,现在都可以实现,虽然还有一些不便,但我知道多窗口的任务管理很快就能克服这些问题,就像刚发布的IPHONE OS4展示的那样.

新闻的未来:有限阅读与无限想象

- - 新闻别动队 PressMine
上周搜狗的同学说《经济观察报》已经涨到五块时,我都震惊了. 往小了说经观是我阅读新闻从事新闻最初的引路者,往大了说,经观是我20岁之后树立价值观所阅读的最重要的一份报纸. 可就是这么一份报纸,我竟然那么久没有买. 更可怕的事情是,可日子依旧那么过,并没有少什么. 当我们新闻工作者都开始不再通过阅读报纸获取新闻时,新闻的未来在哪里.

评论:阅读的未来令人担忧

- - cnBeta.COM
联合国教科文组织的一项调查显示:全世界每年阅读书籍排名第一的是犹太人,一年平均每人是64本. 而中国13亿人口,扣除教科书,平均每人一年读书一本都不到. “在学校里,阅读要跟没完没了的习题作斗争,走出校门还要跟各种遥控器作斗争. ”杭州天长小学副校长、著名儿童阅读推广人蒋军晶说,“我们都说现在的孩子是聪明的一代,但是只注重学业,正在使他们丧失更多的能力,就有可能成为愚蠢的一代.