文本挖掘算法、热度识别体系:美味爱读是如何搭建个性化阅读架构的

标签: 美味爱读 Demo 文本挖掘 AVOS | 发表时间:2013-01-16 16:55 | 作者:陈粲然 Ray
出处:http://www.pingwest.com

美味爱读注册页

最近我在使用一款AVOS公司推出的个性化新闻类阅读产品—— 美味爱读,与其他产品相比,它推送的内容更加精确并具有时效性。令人意外的是,这款产品本身并不在AVOS公司的产品计划中,而是由AVOS中国团队的四位工程师——孙宁、倪华杰、杨朝中和庄晓丹所提出的。

2011年4月,Youtube的两位创始人Chad Hurley和陈士骏从雅虎手中收购了书签网站 Delicious,在此基础上成立了AVOS公司。AVOS的目标是解决互联网信息碎片化、发现有效信息成本增加的问题。Delicious是AVOS最核心的产品之一,帮助用户通过书签服务来梳理、检索自己在互联网中的所得。随后,他们针对中国市场开发了 美味书签

AVOS的中国团队的这四位工程师在分析美味书签的数据时发现,用户在美味书签内留存并查阅知识、新闻和数据是最典型的使用场景,其中,新闻占了很大一部分比例。阅读器是阅读新闻的一个常用方式,但传统的阅读器以媒体、频道作为线索。 信息消费者感兴趣的是一些特定的话题,但获取信息的途径却是一个个的媒体。为了能看到感兴趣的内容,要花时间从各个频道里把它们一条一条地筛出来。为了解决这个问题,他们提出了开发一款更准确,更自动化的阅读产品的想法。

AVOS中国区负责人江宏曾在Google任职,他非常推崇在公司内部建立工程师文化,他听到这个想法后十分支持。于是四位工程师开始按照自己的思路搭建美味爱读(ReadWise)的原型,与市面上其他产品相比,美味爱读的框架有很大的不同。

首先, 他们把每篇抓取到的文章中的文本提取出来,利用AVOS的语义模块,通过文本挖掘算法将其中涉及的关键词筛选出来,作为粒度极细的标签,初到美味爱读网站时,用户可以选择自己感兴趣的标签和是否接收英文文章,根据标签获得相关的内容

美味爱读标签

 接下来,他们在美味爱读中建立了热度识别体系(爱读指数)。由于信息在Twitter 和微博上的传播速度非常快,只要是高质量的内容,很快就会在其中获得一定数量的引用,所以 美味爱读会跟踪文章在互联网上的传播情况,把引用数作为判断文章价值的重要标准之一。同时发布时间和文章受评论的状况也会影响它在阅读器里的排序。目前,工程师们还在不断改进这些因素所占的权重,以保证内容的深度和时效性。

另外,如果两篇文章的内容大同小异,就会根据热度识别体系将其合并,只选择其中的一篇文章在美味爱读里呈现。

美味爱读

工程师们将Demo完成后,陈士骏、Chad Hurley和江宏都参与了讨论,认为美味爱读可以先面向中国市场,作为一个正式的产品推出。于是他们开始进行内测,根据数据快速改进。

如今,美味爱读又增加了“焚毁”和“评论”两个功能。“焚毁”就是让用户去除自己不喜欢的内容,系统通过收集这些用户反馈,可以做出更加个性化的推荐。他们在下一步会考虑根据host对优秀的文章源进行加权,并有可能搭建社区把人和不断完善的算法结合起来,以实现更加个性化的推荐,但这一切都要基于用户行为数据来做决定。

相关 [文本挖掘 算法 体系] 推荐:

文本挖掘算法、热度识别体系:美味爱读是如何搭建个性化阅读架构的

- - PingWest
最近我在使用一款AVOS公司推出的个性化新闻类阅读产品—— 美味爱读,与其他产品相比,它推送的内容更加精确并具有时效性. 令人意外的是,这款产品本身并不在AVOS公司的产品计划中,而是由AVOS中国团队的四位工程师——孙宁、倪华杰、杨朝中和庄晓丹所提出的. 2011年4月,Youtube的两位创始人Chad Hurley和陈士骏从雅虎手中收购了书签网站 Delicious,在此基础上成立了AVOS公司.

最近在整理文本挖掘

- - 刘思喆 @ 贝吉塔行星
最近事情很多,每天下班回来,自己弄些东西吃,稀里糊涂就到了21点. 跟着再浏览一下圈子信息,时间更是倏地一下就到了0点,然后第二天变熊猫……. 翻译《R in a nutshell》,三月底应该会到出版社那边. 重头戏,整理文本挖掘的相关技术. 明天会在公司内部进行文本挖掘的培训,下面是提纲:. 说到文本挖掘,就要说一下文本云可视化.

手把手教你做文本挖掘

- - IT瘾-bigdata
文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法. 文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法. 1)读取数据库或本地外部文本文件. 2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤.

斗鱼风控算法体系建设

- -
分享嘉宾:龚灿 斗鱼 算法负责人. 出品平台:DataFunTalk. 导读:直播行业在业务上面临运营安全、活动安全、流量安全、账号安全、交易安全、内容安全等风险问题,智能风控在技术方面主要有高频对抗、场景繁多、解释性弱等挑战. 本文将分享斗鱼算法团队针对以上问题,如何构建风控算法体系,以及如何应对风控技术方面的挑战.

缓存算法

- lostsnow - 小彰
没有人能说清哪种缓存算法由于其他的缓存算法. (以下的几种缓存算法,有的我也理解不好,如果感兴趣,你可以Google一下  ). 大家好,我是 LFU,我会计算为每个缓存对象计算他们被使用的频率. 我是LRU缓存算法,我把最近最少使用的缓存对象给踢走. 我总是需要去了解在什么时候,用了哪个缓存对象.

BFPRT算法

- zii - 小彰
BFPRT算法的作者是5位真正的大牛(Blum 、 Floyd 、 Pratt 、 Rivest 、 Tarjan),该算法入选了在StackExchange上进行的当今世界十大经典算法,而算法的简单和巧妙颇有我们需要借鉴学习之处. BFPRT解决的问题十分经典,即从某n个元素的序列中选出第k大(第k小)的元素,通过巧妙的分析,BFPRT可以保证在最坏情况下仍为线性时间复杂度.

贪心算法

- Shan - 博客园-首页原创精华区
顾名思义,贪心算法总是作出在当前看来最好的选择. 也就是说贪心算法并不从整体最优考虑,它所作出的选择只是在某种意义上的局部最优选择. 当然,希望贪心算法得到的最终结果也是整体最优的. 虽然贪心算法不能对所有问题都得到整体最优解,但对许多问题它能产生整体最优解. 如单源最短路经问题,最小生成树问题等.

缓存算法

- 成 - FeedzShare
来自: 小彰 - FeedzShare  . 发布时间:2011年09月25日,  已有 2 人推荐. 没有人能说清哪种缓存算法由于其他的缓存算法. (以下的几种缓存算法,有的我也理解不好,如果感兴趣,你可以Google一下  ). 大家好,我是 LFU,我会计算为每个缓存对象计算他们被使用的频率.

K-Means 算法

- - 酷壳 - CoolShell.cn
最近在学习一些数据挖掘的算法,看到了这个算法,也许这个算法对你来说很简单,但对我来说,我是一个初学者,我在网上翻看了很多资料,发现中文社区没有把这个问题讲得很全面很清楚的文章,所以,把我的学习笔记记录下来,分享给大家. k-Means 算法是一种  cluster analysis 的算法,其主要是来计算数据聚集的算法,主要通过不断地取离种子点最近均值的算法.

查找算法:

- - CSDN博客推荐文章
从数组的第一个元素开始查找,并将其与查找值比较,如果相等则停止,否则继续下一个元素查找,直到找到匹配值. 注意:要求被查找的数组中的元素是无序的、随机的. 比如,对一个整型数组的线性查找代码:. // 遍历整个数组,并分别将每个遍历元素与查找值对比. 要查找的值在数组的第一个位置. 也就是说只需比较一次就可达到目的,因此最佳情况的大O表达式为:O(1).