重新索引互联网

标签: 索引 互联网 | 发表时间:2011-05-21 14:54 | 作者:李楠 Ray
出处:http://ucdchina.com/rss/posts

重新索引互联网 Facebook 雇佣公关抹黑 Google 的过程已经水落石出。问题是: Google 那么多产品, Facebook 为何对 Social Circle 这么敏感?

Google :索引互联网

Google 号称自己的使命是“索引互联网”。

这件事的难点并非派出多少爬虫,而是对收集来的海量内容做排序:怎样让真正重要的网页,的排到 Google 搜索结果的前面来?

Google 的搜索结果排序有其他算法的辅助和人工调整,但是,他最基本的核心规则还是 Pagerank,其理念并不复杂: “被许多优质网页引用的网页,仍然是优质网页。”

领域

Pagerank 是革命性的。而另一场革命似乎被我们忽视了: Tags 。

语义网络长期不靠谱的忽悠之后,简单的 Tags 可以终于可以给我们一些东西,让我们分辨这个网页是关于哪些方面的。从此“领域”也被引入网络。

具体些的“领域”的例子,就是 Quora 或者 Stack Overflow 的 Tags 。问题本身是属于“技术”领域,还是“设计”领域?是关于“ J2EE ”领域,还是“ Object-C ”领域?

某些没有 Tag 化的网页到底属于什么领域,还没有清晰的答案。但是已经有人在尝试解决这些问题。比如豆瓣九点,他是依靠算法来给 Blog 自动分类的。

专家

像 Quora , Stack Overflow 这种网站的颠覆性意义在于:他同时具有“人”和“领域”两种概念。

“领域”和“人”结合,就会产生“专家”:特别擅长某个“领域”的“人”。

和 Blog 时代那些说话无操守的“砖家”不同,实名网络加上 Quora 这种问答网站,让我们不需要而非头衔,证书或者学历,就可以用数据去检验一个人在某个领域的专业程度:回答某个领域的问题特别多,并且评价特别好的,很可能是个专家。

网络上的“专家”不仅仅是概念而已。有些网站已经走到了分辨专家的门槛上。 知乎虽然被称作 Quora 的拷贝版,但是他有个比 Quora 更酷的功能:邀请别人回答问题的时侯,系统会推荐可能合适的用户。

背后的算法不难猜测:用问题的“领域”( Tags )去匹配回答过类似问题的“人”。回答过类似问题并且获得赞成多的,很可能也适合回答这个问题。

Stack Overflow 其实也有类似的评价机制,叫做 Reputation (声望)。可惜并没有详细到领域(谁在标记着 Object-C 这个 Tag 的问题中拥有最高的声望?)。但是,如果 Stack Overflow 想得到这个数据,也是分分钟的事。

专家的投票

有同学可能回问:这和重新索引互联网有什么关系?我们还需要扯倒 Facebook 的另外一个功能:“ Like ”。

从上面的角度出发,这个神奇的按钮,其实就是一个“人”对“网页”的投票器。 如果这个人还用 Facebook ID 登录了 Quora ,那么这个按钮就是“某个领域的专家”(依靠 Quora 的数据分辨)对网页的投票器。(“ Like ”的祖宗: Twitter 的 RT 也是。)

Facebook 的新功能“ Send ”为了的非公开的分享?没错。但是更重要的是:“ Like ”再加上“ Send ”,可以让 Facebook 更加全面收集一个“人”对于一个“网页”的投票(以前通过 Email 做私密分享, Facebook 无法拿到这部分数据)。

由此可见,不够实名化的 Google +1 简直是东施效颦。

用户的聚合和识别

这里的问题是, Quora , Stack Overflow ,和 Twitter 不属于 Facebook 。

不过,别忘了 Facebook Connect 。如果用户通过 Facebook ID 登录 Quora ,那么判断谁是什么领域的专家就简单多了。而如果 Facebook ID 和 Twitter ID 可以聚合,那么他 Like 过什么, RT 过什么也可以简单相加。

这里你应该会想起 FriendFeed 。似乎所有的人都说: Facebook 是收购 FriendFeed 是为了团队。但是我一直无法相信,那么值钱的团队,会去找一件不那么重要的事情去做?

上面的内容应该可以说明:不同社交网络之间用户的聚合和识别,到底有多重要。

重新索引互联网

话说道这份上,已经图穷匕见了吧?

Pagerank 是让网页来投票,而 Facebook 掌握的数据可以让“人”,甚至“专家”来投票。

实名网络下,在某些领域,专家的投票可以给予网页很大的加权,让他在排名上更加靠前。(最新的例子是“美国前国防部长的参谋长”宣布本拉登已死的 Twitter 页面。)

肯定有朋友会问:最多“专家”投票的网页,恐怕也是 Pagerank 很高的吧?很可能如此。但是,长期观察 Blog 的传播让我注意到: Facebook Like 和 Twitter RT 的积累,远远比引用要来得迅速。

也就是说,在强调实时网络的今天,社交搜索得到的结果不但可能比 Pagerank 更好,而且,还可能更快。

互联网的地基

今天,只要一个网络应用想做关于地图的部分,他首先想到利用 Google Maps API 。当绝大多数网络服务都使用 Google Maps API 之后, Google Mpas 就不再是一个仅面向用户的网络应用了。他沉淀为网络的基础设施之一。

Maps 的重要性,从评论圈到 Google 自己都有清醒的认识。所以,Google 耗费大量的精力去扫描街景,尝试拍摄室内,甚至,不惜发射自己的卫星。(前两天的 Google IO 的内容更加证实了下面的思路:成功的“索引互联网”之后, Google 下面要做的是“索引现实世界”。)

而 Facebook 同样有机会成为互联网的另外一块地基:通过开放 API 给其他应用,可以让他掌握的真实的人际关系沉淀下来,成为网络的另外一块地基。(社交搜索,也只是这个基础上的一个应用而已。)

最后的话

Mark Zuckerberg 似乎一直自负承担着新搜索的使命,也一直在推进 Facebook 成为地基。

收购 FriendFeed ;不惜面子用 “Like” 去抄袭 Twitter 的 “ RT ”;用 Facebook Connect 把自己平台化等等,都在一块块的凑齐拼图。

而 Google 的 Social Circle 是同样的思路:聚合并且识别一个人在不同社交网络中的身份。之后,这些数据很可能被拿来优化 Google 搜索,或者用于其他网络服务。 Google +1 是个不知所云的产品,但是,如果他能结合 Social Circle 掌握的关系呢?

也许,这些才让 Facebook 不寒而栗的真正原因。

最后,友情提醒读者,以上内容并非事实,只是个人基于现有报道的猜测。也许,我对 Facebook 寄予了太多期望;也许,这样仍然低估了他们的野心。

毕竟,有 Facebook 高层提到过他们内部的一句口号:

“我们仅仅完成了 1% 的使命”。

源地址:http://www.ifanr.com/40769

相关 [索引 互联网] 推荐:

重新索引互联网

- keso - 爱范儿 · Beats of Bits
重新索引互联网 Facebook 雇佣公关抹黑 Google 的过程已经水落石出. 问题是: Google 那么多产品, Facebook 为何对 Social Circle 这么敏感. Google 号称自己的使命是“索引互联网”. 这件事的难点并非派出多少爬虫,而是对收集来的海量内容做排序:怎样让真正重要的网页,的排到 Google 搜索结果的前面来.

微软和Google如何让搜索引擎理解互联网

- - Solidot
搜索引擎爬虫抓取和索引了海量的网页内容,但内容的意义则是一无所知,它们并不能像人类那样区分同一个词的不同含义. 它们抓取的只是网页中的单词,而不是语义. 从一开始,搜索引擎本质上是匹配文本字符串. 让字符串和语义匹配起来是搜索引擎公司努力实现的方向,微软和Google正更新其搜索引擎:微软的Satori和Google的Knowledge Graph能提取出网页中的非结构性数据,创造一个互联网“名词”——人、位置、物及彼此关系——的结构性数据库.

以图搜索——互联网图像搜索引擎的“鸡肋”?

- - 博客 - 伯乐在线
[核心提示] 以图搜索这个目前几乎所有互联网图像搜索引擎都支持的功能为何用户不常用,甚至鲜为人知呢. 图像无疑是互联网上最重要的资源媒介,搜索引擎也无疑是互联网上最重要的资源获取渠道,顺理成章,当图像遇上了搜索引擎时,它们之间迅速萌生了产品化的火花. 目前几乎所有的主流互联网搜索引擎都提供搜索图像的功能(在此之前还有专门的垂直搜索引擎  Tineye, Picitup),最常用的形式是,通过用户输入关键字来检索相关图像.

移动互联网=移动+互联网?

- 可可 - It Talks-魏武挥的blog
从名词上看,移动互联网似乎就是互联网加上一个移动. 但移动互联网远不是“移动的互联网”那么简单. 它的本质——网络部分,就和互联网大不相同;而它的表现——移动部分,也正因为移动,造就了很多和互联网相当不一样的商业机会. 而更重要也是很多人并没有注意到的是,它可能会改变整整一代人的信息处理习惯. 从网络部分而言,我们都知道,理论上互联网是没有拥有者的.

中美互联网差异

- leeking001 - 互联网的那点事
在互联网以指数的速度发展的今天,人们的生活已经离不开网络,那么,这两个打过在互联网方面有什 么差异呢. 我们从下面一系列与互联网相关的参数来比较两个国家,比如:互联网用户数量,互联网普及率,互联网连接的速度,域名数量,受欢迎的网站,网页浏 览器,操作系统等等. 十年前,美国是世界上的互联网头号大国,而现在很明显已经不是,取而代之的是中国.

互联网七巧板

- Ray ma - 云科技
话说天下事势,合久必分分久必合. 大半年前在一辆宝马车里,一互联网大佬爆料说“百度可能收购新浪,肯定在谈”. 半个月前又开始传,百度高管去硅谷跟Facebook谈合资了. 前天又听到,搜狐可能和另一家互联网巨头合资做微博. 互联网的谣言和互联网的股价一样,起起伏伏. 不过,本文主题不是关于百度或者搜狐或者新浪,而是关于合资.

被选择的互联网

- Jacqueline - 月光博客
  连线杂志的那篇《互联网死了》确实震动业界,而现在,百度的框计算似乎正在验证他的话. 无论是高兴也好,无论是哀嚎也罢,百度的框计算终究给最终用户带来了一些实际的东西. 他改变了人们对于传统搜索的认知. 而百度这类似的行为,正成为互联网的一种趋势. 可以说,商业化的大潮,正在人为的割裂互联网,让他的边界越来越明显.

互联网的锤子(三)

- 盛开 - 月光博客
  对微博的讨论思路仍将从信息的获取和发布两个方面结合微博的特征来讨论,这将是我们的思维定势.   2006年twitter诞生,在blog之后,在rss,digg,youtube之后. 在这些应用出现之后,网民创造的信息内容与日俱增,对新闻资讯,博文的评论散落在网络的各个角落. Twitter生逢其时,将网民集合在一个平台上,最初将这一优势显现出来的是对突发新闻的报道,在现场的网民发布现场图片信息,通过twitter直接将图片传送给其他网民,经过转发评论,现场的新闻图片传播到整个twitter平台上,实现即时广泛的传播.

Facebook = 未来的互联网?

- iamsure - 爱范儿 · Beats of Bits
或许现在许多人看到这个标题的时候还会认为是危言耸听,可这一天似乎已经离我们越来越近. 社交网络可能就是未来互联网的代名词. 毋庸置疑的是,互联网依然增长迅猛,但从以下三组数据我们发现,互联网的增长重心在向特定方向聚集. 线上视频保持着爆炸性增长,每年用户使用增长率 45%. 移动设备用户上网使用时间较去年增长了28%,其中智能手机用户上网使用时间翻倍.