从Web 2.0到推荐引擎2.0

标签: 风头浪尖 | 发表时间:2010-08-31 00:12 | 作者:同人于野 Race forward!
出处:http://www.geekonomics10000.com

(《新知客》,2010年9月)

互联网应用的新概念似乎总是层出不穷,然而相对于2005年前后中国一下子冒出来的一大批 web 2.0 网站和最近几年出现的“云计算”,此时此刻的互联网业界似乎有点沉闷。人们开始谈论,互联网下一个有趣的事情是什么?

百姓网 CEO 王建硕,最近在《中国企业家》杂志发表文章《2011年注定是中国互联网第三春》,提出一个五年周期理论,认为每隔五年左右就会有一批人出来创业,就会有一批风险投资周转完毕转而支持新的项目,这样经过这两年的沉闷,2011年必将有新东西爆发。王建硕看好的概念是“移动互联网”。紧接着,著名 IT 博客“对牛乱弹琴”,也谈到2005这个奇迹年,不过他并不怎么看好2011年的爆发,认为现有的 web 2.0 公司仍在寻求能真正赚钱的模式,而不会出现什么全新的概念。

有一个东西可能成为未来几年互联网公司的新主攻方向:推荐引擎。

豆瓣网,土豆网和各种视频分享网站,包括博客的流行,在中国都是从2005年开始的。今天的年轻人中可能任何两个人过去一天内看过的节目和新闻都完全不同,每个人都能根据自己的兴趣找到特有的一套内容,这就是 web 2.0 的力量。对2005年的创新公司来说,最重要的革命性思想可能是2004年《连线》杂志主编 Chris Anderson 提出的所谓“长尾”理论。这个理论说互联网使得过去几件流行商品通吃的局面一去不返了,现在哪怕是最不流行的东西也会有人喜欢,是小众市场的时代。

互联网的大趋势,甚至可以说是整个社会的一个大趋势,是人们面临的选择越来越多。过去是全国上下看一个电视剧,而现在中国每年生产一万五千集,其中很多甚至根本没有被播出的机会。1994年,全美国总共有50万种不同的商品出售,而现在仅仅在亚马逊网站上就有超过240万种商品。长尾和 web 2.0,正是选择越来越多带来的现象。 Anderson 提出长尾的三个法则,第一是让所有东西都可以被获得;第二是让这些东西卖的很便宜;第三是帮我找到它。前两点可以说已经做到而且做得很好了,现在的关键是第三点,怎么帮助用户作出选择。这就是推荐引擎的作用了。

据市场分析公司 Forrester 统计,那些在电子商务网站被推荐过商品的用户,有三分之一的人会根据这些推荐买件东西。任何广告都不可能做到这样的成绩。所以推荐引擎不但是 web2.0 的最核心技术,更是广告的终极形式。我们可以设想,当一个人面对购物网站上几十万种商品,有多大可能没有一件是他愿意买的呢?这个人空手而归的最重要原因,也许是那个他一定会买的商品没有被他发现。

多年以前,我曾经在亚马逊买过一本《量子力学》,是物理系研究生的教材。结果很长一段时间内亚马逊不停地向我推荐各种物理教材。这个推荐引擎想的非常周到,只可惜它不知道我早就不需要这种教材了。现在在当当网买书,每一本书的关联推荐往往都是一些流行热卖的类似的书,这些书我早就知道而没有买,难道会因为看到推荐才买么?人们需要的是个性化的,恰到好处的,最好还有一点惊喜的推荐,而传统的推荐引擎太落后了。

在线DVD租借提供商 Netflix,自己有一个算法保密的推荐引擎 Cinematch,根据用户对电影的打分来判断他还可能喜欢什么电影。这是一个相当优秀的引擎 — 如果你想知道喜欢一本书的读者还喜欢什么样的书,亚马逊可以免费告诉你答案,而 Netflix 的电影推荐服务只给付费用户,甚至可以说是一大卖点。但 Netflix 并不满足,它在2006年提出悬赏,希望有人能把推荐引擎的性能提高10%,这10%的奖金是一百万美元。

这件事充分说明一个好的推荐引擎是多么重要,同时又是多么困难。这笔奖金一直到2009年才被一个七人小组得到,其中包括两名AT&T的科学家。

传统的推荐引擎主要根据统计用户记录来发现关联,重点是“买过这本书的人一般还都买了什么书”。这个原理是简单的,它的缺点在于往往推荐的都是一些相似的东西,而且这些东西必须已经有很多人买过了。它无法制造惊喜。这可能也是很多人更愿意逛书店的原因之一,在书店里往往会偶遇一些本来绝对想不到自己会喜欢的,而且不怎么出名的好书。另一方面,传统的引擎不知道一本书或者一个电影到底好在哪里,为什么人们会喜欢,以至于无法做出更精确的推荐。

但现在有两个新的推荐技术,堪称是推荐引擎2.0。

Pandora 是一个专门致力于歌曲推荐的公司,它的办法是分析歌曲。在 Pandora 的算法中,给每一首歌都有400种不同的属性,聘请一位音乐专家,使用20分钟的时间给这首歌的所有可能的属性打分。这样一来每一首歌都被一组数标记了属性。Pandora 的目标是建立一个包含所有歌曲的数据库,称之为“音乐基因组计划”。他们每月能分析一万首歌曲,在过去十年之内已经分析了74万首。推荐算法的原理是,如果你表示喜欢一首歌,程序会自动寻找跟这首歌的“基因”相同的歌曲,并赌你也会喜欢。Pandora 现在已经是 iPhone 和 iPod 中最流行的应用之一,随着播放的进行你可以随时表示喜欢或是不喜欢一首歌,程序通过网络自动提供各种你可能喜欢的歌曲。

Pandora 的独特之处在于它完全根据一首歌的本身属性和你自己的喜好记录来判断你喜不喜欢,而不考虑别人喜不喜欢。显而易见的好处是也许这首歌并不流行,可是你就是喜欢。Pandora “了解”歌曲。统计表明,在使用过 Pandora 的人中,45%买了更多音乐,只有1%的人因为 Pandora 减少了音乐购买。

而另一个推荐引擎公司, Hunch,有更大的野心,它的做法是直接分析人。Hunch 并不去分析歌曲,电影或者书有什么属性,它分析每个用户有什么属性。你喜欢百事可乐还是可口可乐?你喜欢蓝色的笔还是黑色的笔?通过大量的统计分析,Hunch 发现,如果你相信 UFO 存在,那么你更有可能喜欢百事可乐;如果你有一个 MBA 学位,那么你更有可能喜欢蓝色的笔。

现在去 Hunch 的网站,它允许你用 Facebook 或者 Twitter 的账号登陆,然后它会问你20个看上去与电影和书籍一点关系都没有的问题。这些问题包括你住在城市,郊区还是乡下,你会不会自己安装家庭影院的音箱系统,你能不能连续做10个引体向上,喜欢吃什么样的炸薯条等等。然后根据这些信息,它将会向你5本杂志,5个电视剧和5本书。我很少看电视剧,但它推荐的5本杂志中有2本是我早就订阅了的;它推荐的5本书里有一本是我看过的。它其他的推荐我不怎么感兴趣,但这已经是相当不错的准确度。Hunch 的雄心壮志是给每一个用户建立一个个人喜好档案,然后那些电子商务公司就会向它购买完全基于个人喜好的推荐服务。

中国显然需要高性能的推荐引擎,而且考虑到国人的喜好与西方用户未必相同,这种推荐引擎还必然是具有中国特色的。我预计推荐引擎会在中国有很大的发展,但是其中也有困难。

首先,“炼成”一个好的推荐引擎需要大量的真实交易数据,而这些数据往往各公司保密,是一种稀缺资源。Netflix 是为了举办100万美元的优化大奖,才公开了部分用户电影评价数据。Pandora 是自己采用劳动密集型的做法雇人给每一首歌设定属性,而且费时多年才开始盈利。很难想象淘宝或者当当能把自己网站的交易记录交给一个第三方公司研究。

更重要的是,推荐引擎技术很难山寨,它不仅仅是一个编程的问题,而必须请统计学家,艺术家和工程师合作研究。早期的互联网公司最大的不同是它使用了互联网;中国在2005年爆发出来的 web 2.0 公司,最大的不同也许仅仅是一个好主意;而现在则到了需要核心技术的时候。也许那个大学本科退学生,甚至高中生想起来一个好主意,写几个月程序,然后就能拉到风险投资说创业就创业,说上市就上市的时代已经快要结束了。

从 web 2.0 到推荐引擎2.0,是互联网公司从低端到高端的一个进化。

相关 [web 推荐引擎] 推荐:

从Web 2.0到推荐引擎2.0

- Race forward! - 学而时嘻之
(《新知客》,2010年9月). 互联网应用的新概念似乎总是层出不穷,然而相对于2005年前后中国一下子冒出来的一大批 web 2.0 网站和最近几年出现的“云计算”,此时此刻的互联网业界似乎有点沉闷. 人们开始谈论,互联网下一个有趣的事情是什么. 百姓网 CEO 王建硕,最近在《中国企业家》杂志发表文章《2011年注定是中国互联网第三春》,提出一个五年周期理论,认为每隔五年左右就会有一批人出来创业,就会有一批风险投资周转完毕转而支持新的项目,这样经过这两年的沉闷,2011年必将有新东西爆发.

大数据-推荐引擎

- - 人月神话的BLOG
推荐引擎在当前电商平台用的相当多,本文简单理解下常见的几张推荐方式. 首先说明下大数据用户画像可以用于针对性营销和单品推荐,但是即使没做用户画像也可以进行商品推荐. 推荐引擎是不是为不同的用户推荐不同的数据根据这个指标,推荐引擎可以分为基于大众行为的推荐引擎和个性化推荐引擎. 大众行为的推荐引擎,对每个用户都给出同样的推荐,这些推荐可以是静态的由系统管理员人工设定的,或者基于系统所有用户的反馈统计计算出的当下比较流行的物品.

初识推荐机制、推荐引擎

- 山河之外 - 互联网的那点事...
随着互联网的发展 估计大多数的产品都会遇到推荐机制的策划,作为互联网产品人员也需要研究一下推荐机制的核心算法,这篇文章是我看到的言简意赅讲了一些基础的推荐机制的文章,转过来分享给大家. 如今已经进入了一个数据爆炸的时代,随着 Web 2.0 的发展, Web 已经变成数据分享的平台,那么,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难.

协同过滤和推荐引擎

- - 刘思喆@贝吉塔行星
推荐系统在个性化领域有着广泛的应用,从技术上讲涉及概率、抽样、最优化、机器学习、数据挖掘、搜索引擎、自然语言处理等多个领域. 东西太多,我也不准备写连载,今天仅从基本算法这个很小的切入点来聊聊推荐引擎的原理. 推荐引擎(系统)从不同的角度看有不同的划分,比如:. 按照数据的分类:协同过滤、内容过滤、社会化过滤.

推荐引擎:信息逆流

- - 《商业价值》杂志
信息时代用户链接内容的方式将再次产生深刻变化,而这一变化的驱动者,正是推荐引擎技术. 如果回到20世纪80年代,面对一台当时的电脑,你很可能会不知所措. 原因很简单,当时要访问电脑内的内容——不管是软件或者游戏,你起码必须掌握基本的Dos命令. 换句话说,当时用户与内容链接的方式,是输入大量电脑“听得懂”的命令,再让电脑将其执行出来.

Spotify推荐引擎Discover Weekly的故事

- - Solidot
Spotify的软件工程师Edward Newett说,赋权自下而上的创新,奇迹将会发生. 他在上周举行的@Scale 会议上分享了开发Discover Weekly推荐引擎的故事. Discover Weekly设计帮助用户发现他们从未听过的新音乐,于一年前上线,至今已积累了4000多万的用户. Newett最初的工作是开发个性化网页,其中包含了向用户推荐他们可能感兴趣的专辑的系统.

探索推荐引擎内部的秘密:推荐引擎初探

- adow - 互联网的那点事...
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用. 同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法. 本文作为这个系列的第一篇文章,将深入介绍推荐引擎的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐引擎.

探索推荐引擎内部的秘密: 第 1 部分:推荐引擎初探

- JingSQ - IBM developerWorks 中国 : 文档库
随着 Web 技术的发展,使得内容的创建和分享变得越来越容易. 每天都有大量的图片、博客、视频发布到网上. 信息的极度爆炸使得人们找到他们需要的信息将变得越来越难. 传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的.

推荐《探索推荐引擎的秘密》系列

- linyehui - Tinyfool的Blog
最近推荐引擎成为显学,主要原因应该是电子商务的蓬勃发展. 头些日子和图灵的两位老师吃饭,我甚至了解到因为推荐引擎以及机器学习领域的日渐火爆,图灵出的线性代数最近销量都很好,更别提大家现在到处都可以看到这个领域相关的招聘. 我最近的创业项目iApp4Me其实也是一个推荐引擎的应用,我关注这个领域有很长一段时间了.

数据驱动销售——个性化推荐引擎

- - 互联网旁观者
在当前这个信息量飞速增长的时代,一个企业,尤其是电子商务企业的成功已经越来越多地与其海量数据处理能力相关联. 高效、迅速地从海量数据中挖掘出潜在价值并转化为决策依据的能力,将成为企业的核心竞争力. 数据的重要性毋庸置疑,但随着数据的产生速度越来越快,数据量越来越大,数据处理技术的挑战自然也越来越大.