互联网趋势与推荐系统的机会(2)
Shared by clickstone
胖子出品,必属精品!
本文分两部分,本篇为第二部分:推荐系统在这个变化中能做些什么;第一部分:当前互联网趋势的一些变化。
SNS和application的兴起从根本上动摇了Google的生态体系赖以存在的基础,一方面信息和系统不再是自由和开放的,另一方面信息本身也越来越多的被体验所替代。这个倾向伴随着web 2.0的壮大,尤其是最近一两年,已经可以称得上是趋势了。这背后,还有一股潮流,就是互联网的真实化,网络从第二人生慢慢变成第一人生,早期的纯精神领域的自由、开放的乌托邦,越来越世俗化,越来越融入真实生活。信息是真实生活的一部分,但生活不仅仅是信息。如何有效地整合私有的、带个人色彩的信息,如何迎接网络真实化,技术上还没有看到合适的答案。
下面谈谈推荐系统,主要是个性化推荐系统。目前的推荐系统面临着两个重要的问题,先说技术上的。当前主流的推荐算法基本上是以统计学习为基础的,利用统计和机器学习的方法,最大限度的从数据中抽取信息,再用这些信息进行推断,进而形成对每个用户的推荐。这样做在数学上是自洽的,但实际应用过程中产生了很多问题。比如冷启动,在数据非常稀疏的情况下会放大噪声;比如随着数据的增长,越来越倾向于给出平庸的推荐;比如信息的维度单一,没有办法跟着用户一起成长;比如面对特性不同的数据集,需要花很大的力气来调节系统参数。所有这些问题,都造成了个性化推荐系统能够实际应用的场合受到很大限制,效果也很难衡量。
纯粹从技术方面来看,这些问题是存在解决的可能的。目前我把推荐系统分成三个层次,第一层是Prediction,就是给你一个数据集,拿掉一部分,想办法用剩下的部分把拿掉的恢复起来。这部分工作是可以形式化,给出严格的定义,是个数学问题,也是目前研究的最透彻,解决的最好的。前几年的Netflix竞赛让我们看到了这里面的巨大潜力。这部分工作的意义是从数据形成信息。第二个层次是Forecasting, 把给你的数据集看成一个系统,预测这个系统下一步的变化。用上一个层次的方法也可以来做这一层的问题,但其中有两个重要的区别,一个是时间维度,一个是形成系统的是人,人的心理和社会环境因素的作用。这两个因素的作用是使这个层次的系统比上一个层次的复杂度高了很多,原来的方法可行,但未必有效。解决这个层次的问题,仅仅从给定的数据出发是不够的,需要整合其他数据,可能需要先验知识,甚至可能需要一点用户的认知和心理模型。目前商用的推荐系统都在或多或少的解决这个问题。这部分工作的意义是从信息形成知识。
第三个层次是Recommendation,这个是真正意义的推荐。这个系统应该具备所推荐领域的知识,同时还要认识它的每一个用户。这个系统能够自我启动,同时能够生长和进化;这个系统是有记忆的,同时它还能够学习。这个系统没有严格的定义,同时它的基本技术架构可能也不会仅仅局限于目前流行的推荐系统的各种框架、技术和算法。这个说法有点让我们想起六七十年代人工智能最辉煌的时候的一些蓝图,那些蓝图没有一个能实现。后来人工智能领域用机器学习这个更低调的说法代替了那些听起来很有野心的目标,在实践中取得了非常大的成就。脚踏实地是非常好的态度,不过如果你总也不抬头的话,会慢慢忘了头顶上还有一片灿烂的星空。这部分工作的意义是从知识形成系统。
推荐系统所遇到的问题,从技术角度来看都是有解决方案的,但是从其他角度来看,则未必。其中一个关键问题就是,个性化推荐,到底是一项技术,一个功能,还是一个产品?我们可以先看看从模式识别衍生出来的一些东西,比如指纹识别、人脸识别,可以很清楚的看到,这是一项技术,它可以作为一个功能存在,但不会是一个完整意义上的产品。我们可以再看看搜索,其实很早在文献检索领域,就有类似的技术,包括PageRank算法,也有相似的雏形。但互联网信息的膨胀使得搜索从技术、功能真正成为了产品,进而发展成了平台。那么个性化搜索呢,它是一项技术、一个功能,这毫无疑问,但能不能成为独立的产品,如果能,应该以什么样的产品形态而存在,能不能发展成平台,都很难说,至少目前没有办法回答。
在未来的互联网,不是平台,就是平台的一部分。Google是自由开放的信息的平台,Apple是封闭的app的平台,Facebook是社会关系和私有信息的平台;twitter会不会成为平台不知道,microblogging是不是最终的产品形式也不清楚,电子商务会有平台,LBS一定会成长为平台,很可能是关于生活的平台,涵盖各种手持、车载、移动设备和基于地理位置的固定设备。当互联网的表现形式和内涵不在仅仅局限于信息,与生活高度融合时,会有各式各样的平台。在这里,暂时看不到个性化推荐跻身平台的前景,不过有一点可以肯定,未来的互联网,个性化推荐会是各个平台的标配。
让我们回到Tim O’Reilly, 一个产品之所以能成为平台,一定有强大的back-end,数据是在他们手里的,这些数据包括元数据(meta data),用户的基本信息、用户的行为、用户的偏好、用户的社会关系等等。同一领域的平台与平台之间的竞争,在前台是产品功能、用户体验,在后台则是数据的整合、处理,以及从数据形成信息、知识、系统的能力。特别是对于封闭的系统、私有的信息,社会关系、LBS,超链接分析并不能很好的适应这些应用,但个性化推荐可以给出更好的结果。
未来的几年之内,我们一定会看到互联网领域令人激动的变化,个性化推荐从技术到产品,从系统到应用,一定会遇到一系列非常有挑战性的问题,也一定会有各种各样充满天才的解决方案等着我们去发掘。我希望在中国也是如此。
原文链接:http://www.douban.com/note/121744853/
您可能也喜欢: | ||||
(@guwendong) 推荐系统:Recommender Systems 简介 |
互联网趋势与推荐系统的机会(1) |
为什么关于社会化推荐系统的创业想法接连失败? |
转载:音乐推荐系统的评估 |
推荐系统五大问题 |
无觅 |