文本挖掘算法、热度识别体系:美味爱读是如何搭建个性化阅读架构的
最近我在使用一款AVOS公司推出的个性化新闻类阅读产品—— 美味爱读,与其他产品相比,它推送的内容更加精确并具有时效性。令人意外的是,这款产品本身并不在AVOS公司的产品计划中,而是由AVOS中国团队的四位工程师——孙宁、倪华杰、杨朝中和庄晓丹所提出的。
2011年4月,Youtube的两位创始人Chad Hurley和陈士骏从雅虎手中收购了书签网站 Delicious,在此基础上成立了AVOS公司。AVOS的目标是解决互联网信息碎片化、发现有效信息成本增加的问题。Delicious是AVOS最核心的产品之一,帮助用户通过书签服务来梳理、检索自己在互联网中的所得。随后,他们针对中国市场开发了 美味书签。
AVOS的中国团队的这四位工程师在分析美味书签的数据时发现,用户在美味书签内留存并查阅知识、新闻和数据是最典型的使用场景,其中,新闻占了很大一部分比例。阅读器是阅读新闻的一个常用方式,但传统的阅读器以媒体、频道作为线索。 信息消费者感兴趣的是一些特定的话题,但获取信息的途径却是一个个的媒体。为了能看到感兴趣的内容,要花时间从各个频道里把它们一条一条地筛出来。为了解决这个问题,他们提出了开发一款更准确,更自动化的阅读产品的想法。
AVOS中国区负责人江宏曾在Google任职,他非常推崇在公司内部建立工程师文化,他听到这个想法后十分支持。于是四位工程师开始按照自己的思路搭建美味爱读(ReadWise)的原型,与市面上其他产品相比,美味爱读的框架有很大的不同。
首先, 他们把每篇抓取到的文章中的文本提取出来,利用AVOS的语义模块,通过文本挖掘算法将其中涉及的关键词筛选出来,作为粒度极细的标签,初到美味爱读网站时,用户可以选择自己感兴趣的标签和是否接收英文文章,根据标签获得相关的内容 。
接下来,他们在美味爱读中建立了热度识别体系(爱读指数)。由于信息在Twitter 和微博上的传播速度非常快,只要是高质量的内容,很快就会在其中获得一定数量的引用,所以 美味爱读会跟踪文章在互联网上的传播情况,把引用数作为判断文章价值的重要标准之一。同时发布时间和文章受评论的状况也会影响它在阅读器里的排序。目前,工程师们还在不断改进这些因素所占的权重,以保证内容的深度和时效性。
另外,如果两篇文章的内容大同小异,就会根据热度识别体系将其合并,只选择其中的一篇文章在美味爱读里呈现。
工程师们将Demo完成后,陈士骏、Chad Hurley和江宏都参与了讨论,认为美味爱读可以先面向中国市场,作为一个正式的产品推出。于是他们开始进行内测,根据数据快速改进。
如今,美味爱读又增加了“焚毁”和“评论”两个功能。“焚毁”就是让用户去除自己不喜欢的内容,系统通过收集这些用户反馈,可以做出更加个性化的推荐。他们在下一步会考虑根据host对优秀的文章源进行加权,并有可能搭建社区把人和不断完善的算法结合起来,以实现更加个性化的推荐,但这一切都要基于用户行为数据来做决定。