follow人，还是follow内容

标签： Algorithm | 发表时间：2010-07-30 09:17 | 作者：wentrue bingo

出处：http://www.wentrue.net/blog

天下大势，合久必分，分久必合。自从有了网站，数字信息就开始多了起来，直到我们拥有搜索引擎之前，这些信息都没有被很好地组织。自从有了feed流这个概念，信息突然又瞬间地膨胀了起来，在我们找到一个合适的工具之前，这些信息都没法被很好地推送到合适的人面前。一直以来，人们从没停止过要把各种如毛细血管般的流信息整合到一起。特别是一些已经远在墙外的优秀网站，做出了很多很好的解决方案，facebook之类的SNS网站试图通过现实朋友的关系来组织feed流，无所不包的friendfeed企图把所有的feed信息都归于一处（国内类似的有今年张教主写的kanrss），这两年成为新贵的twitter则使得流信息的产生更容易，接收更便捷，follow即所得。

上述对信息的解决方案都是通过follow人来实现，而follow内容无疑是另一条可行的路径。关于内容的分类组织已经有很多年的研究与实践，在郑昀的这篇关于Topic Engine的博客中有很详细的综述，而对这些分类内容的follow，以得到一个类别的信息更新，就我所知，还并不多见。比较知名的如google资讯与google快讯，前者属于对内容的分类组织，后者则属于对分类内容的订阅或者说follow。依托于google强大的搜索能力，信息的新颖性及广阔性很有保证，但由于产品的定位并非要作一个详细的内容分类，所以分类比较粗糙，只是一些如门户网站般的粗分类别而已。

最近上线的cutt.com则希望把这种分类信息推送做到极致，这是一家号称以语义网技术作为其底层分析引擎的公司。它的上线，首先要感谢国家，否则也许我们能早几个月看见它。因为谷文栋的介绍，我得以在早期就对这个有着很大野心但目前还不甚成熟的信息组织引擎有一定的使用体验。这是一个很有想法的新生儿，但现在有些地方也还不太成熟。

产品与交互方面：
一个由工程师主导的公司容易做出让人拍案叫绝的创意产品，却也容易暴露一些产品设计与交互上的毛病，这也许是因为聪明的工程师们总是很难让自己处身在大多数不知情用户的处境里。

cutt很好的一点是用户使用零成本，任何一个用户打开即可用，无需要注册，也无需进行任何信息填写。我在匿名状态下就能进行大部分的操作，没有注册没有登录情况下收藏的文章居然还能保存，很激动人心吧！但是可怕的事情来了，一旦我登录上去，会发现我之前以为已经记录下来的所有数据都不见了。好吧，我也许原以为它会自动地把匿名信息自动导入到我的帐号中。但后来想想，如果它这样做了，我肯定会更恐惧的。其实我的意思是：我没有得到任何提示的情况下，我不知道我刚刚还在的数据到哪去了。对于普通用户，可能还有一个困扰就是换个浏览器，这些数据也没了，用户不会觉得自己有错，他们只会认为是你们把他们的数据弄丢了。同样的情况是我写的文章反馈，写完后同样无影无踪，虽然我知道cutt的数据库中肯定还有记录，但大多用户同样会认为你把TA的数据弄丢了。虽然我不是做产品的，但我觉得这里有一个原则：用户贡献的数据TA一定还能找回来，否则后果绝不仅是TA不再愿意贡献那么简单。

另外就是内容方面的，由于是一个新生儿，内容频道还不足够完善，比如摄影器材方面的内容也没有，因为我最近关注这个，所以一下就看到了这个，但估计其它方面的频道还是有缺失。再比如，我发现cutt不喜欢娱乐，因为很多娱乐版面都还是空的：）。以内容为主打的网站的其中一个核心竞争力就是信息的更新速度，而cutt的信息更新的速度还有待提高，我晚上十点钟时看到的最新文章还是下午五点多的，不知道是受制于爬虫还是算法的处理速度。另外，展现方式也许还可以改进，简洁是一种方式，但如果仅仅只是以新闻作为主要载体的话，加入一些具有视觉力的元素可能会更吸引人。

技术方面：
预览：我很喜欢cutt的文章预览功能，这样我就不用点过去等整个页面加载了。但我不知道还能不能进行进一步的过滤，采用文本摘要技术，把主要内容以几句话就传递出来。对于现在快餐型的社会消费习惯，这无疑是一个很有竞争力的feature。我甚至考虑过由人来对这些摘要信息进行抽取，这也是群体智能的一部分。

来源：据我的观察，现在的cutt仍然以网页这种非结构化信息为主，来源也主要是一些大中型的门户或资讯网站。实际上在现在这个mashup的年代，网络上的RSS源很多，如果能充分利用博客及一些web2.0网站输出的RSS半结构化信息，信息的来源肯定会更丰富，可分析性肯定更强。当然我估计cutt肯定也有这方面的内容，只是还没有更多的放出来。

google reader：曾经我是一个google reader的重度用户，几乎每天必看，也订阅了大量感兴趣或半感兴趣的rss源，并煞有其事地把它们归类为算法、网络、科学、IT资讯、业余等等频道。但后来我已经越来越少地去看它，任由那1000+的未读永远地停留在左上角。究其原因，是因为follow的内容是死的，而follow的人是活的，是有感情因素在里面的，所以如果一个人没有更多的时间，TA会更倾向于刷自己的微薄，而非冷冰冰的内容。但信息的需求还是有的，所以我现在更多地在消费经过朋友过滤的信息。如果一个算法能有更好的过滤能力，我还是很乐意去使用的，特别是个性化的信息推荐。因为友邻推荐是给所有人的，而非专属你自己，而这方面，机器可以做的更好。

个性化信息推荐：虽然cutt现在还没有，但我知道将来肯定会有，现在只不过是要度过一个用户信息的冷启动期，贡献越多，收获越多。但信息个性化是一个比信息组织难的多的课题，除了考虑内容的语义与关系，现在再加进一层比内容要复杂得多的人的因素，解决好这个问题，任重而道远。

思想层面：
最后来点虚的。
集体智能的利用：不单是利用用户隐式的反馈数据加以社会化的推荐那么简单，它更重要地还包括用户显式地、自愿地贡献的内容。比如wikipedia的客观权威性居然来自于无数个网民自发的编辑行动，再比如语义网的标杆freebase的构建也是有赖于大量的志愿者对它的贡献。完全依靠用户的积极性显然不行，特别是在国内互联网环境中人们往往更乐于索取而非贡献，怎么能让用户快快乐乐地贡献自己的智慧是一个很难的设计问题。从另一个角度来思考，这个问题其实也并非那么地困难，我们简单地估计一下之前红透半边天的“开心农场”，有多少个网民在那上面花费了多少的时间，折合成被耗费的智慧时间，这该是多么庞大的一个数字！如果，我们在一个如此盛行的游戏中盛载了一定的智慧任务，而用户能在玩耍游戏的过程中就能帮助我们解决一个又一个的机器不能解决的智慧难题，这该是多么的激动人心啊！

事实上，在过去的日子里，已经有人作过这样的尝试，像我上述所提及的一类游戏有其名为Game ith a purpose，就是希望能透过游戏的方式，让人去解决一些人本身看来显而易见，但目前的机器学习方法仍然无法做好的问题，比如图片内容识别的问题。到目前为止，关于这种思想最著名的一个案例应该就是 reCAPTCHA，这个游戏曾经成功地帮助人们解决了印刷物扫描成电子物时某些内容无法识别的问题。这样的一种以人作为驱动的计算思想，国内有人译之为“人本计算”。

这个留待以后再专门论述。

您可能也喜欢：
texlive使用点滴	lighttpd＋web.py搭建web service	中国推荐社区ReSys的小站	vim的剪贴板

来自无觅网络的相关文章：
(@resyschina) StumbleUpon新功能：从内容推荐到应用推荐	(@resyschina) My6sense：个性化Twitter内容流插件	(@resyschina) 美网络内容推荐引擎Outbrain融资1100万美元	(@resyschina) 推荐系统五大问题
无觅