百度搜索评测三阶段

标签: 搜索引擎 | 发表时间:2012-01-11 14:27 | 作者:黄言之
出处:http://blog.sina.com.cn/netreview

作为搜索引擎,百度的目的是要让搜索结果的呈现次序更好。何谓更好?这是设计任何算法之前必须考虑好的问题。“好”必须变成一个可以量化的指标。来自百度网页搜索部的彭滔就跟我们介绍了他们的经验。在百度搜索的发展历程中,“好”的评估方式大致被分为三个阶段。彭滔取了一个query用作例子:“给我一片关于春天的作文,要长的,快点”。这个例子的目的性很强,评判的主要标准在于解决特定问题。

第一个阶段,是由PM来给搜索排序中的第一页的结果打分,0分是最差,4分是最好。如果4分结果靠前,这个算法在这个query上就被定义为一个较好的算法:

第二个阶段是第一个阶段的多人版,即抽取较多的query,从外包公司请来一大批兼职人员(evaluator)来评分,然后取平均值。对于正确率高的evaluator给予奖励,即可以认领更多的任务。

第三个阶段彻底改变了“好”的定义:直接在线上环境进行AB testing,根据首次点击的上升/下降情况,以及用户翻页的次数等指标来评估。为了减少随机性对实验结果的影响,还采取了空转、反转等步骤来加固实验。

究竟百度这样的评估方法是否给我们带来了一个越来越好的搜索引擎?相信每个用户心里,都会对“好的搜索引擎”有不同的定义;而由于每个用户的query不同,结论的偏差肯定是有的。最后,彭滔也提出了对个性化搜索的展望,相信这个领域仍有非常大的挖掘空间。

 

文章来源: http://www.baiduer.com.cn/2012-01/26665.html

相关 [百度搜索 阶段] 推荐:

百度搜索评测三阶段

- - 互联网旁观者
作为搜索引擎,百度的目的是要让搜索结果的呈现次序更好. 这是设计任何算法之前必须考虑好的问题. “好”必须变成一个可以量化的指标. 来自百度网页搜索部的彭滔就跟我们介绍了他们的经验. 在百度搜索的发展历程中,“好”的评估方式大致被分为三个阶段. 彭滔取了一个query用作例子:“给我一片关于春天的作文,要长的,快点”.

百度搜索URL参数解析

- - 标点符
百度的搜索URL存在着一定的规律和逻辑,下面的链接是我使用百度搜索“标点符”后得到的链接,下面就来一起分析下百度搜索结果URL的秘密. URL中的s?表示搜索,&符号起到参数分割的作用. wd:Keyword,查询的关键词,有时还会是 word,比如 www.hao123.com打开的链接就是word,wd后面的关键词使用gb2312进行编码,如果搜索词中出现空格则使用+号替换;.

百度搜索研发部:日志分析方法概述

- wuwu - 标点符
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核、各种应用服务器等等. 日志的内容、规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志. 其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志.

针对Google与百度搜索引擎的优化

- - 网站运营优化
  从实践上来看,只要抓住seo的根本原理,做好基础优化,一般来说在所有搜索引擎中排名都会不错. 不通搜索引擎算法上的细微差别造成排名不通是正常的. 但对于一个真正优秀的网站来说,不会有天壤之别的.   百度和google的区别:在收录方面,google很容易收录新网站和新页面,一两个质量不必很高的外部连接,就能让新网站收录.

解读百度搜索引擎工作原理

- - MyBlog
【文章摘要】以下便是百度搜索引擎决定搜索结果排序时考虑的六大原则,那么六大原则的侧重点是怎样的呢. 哪个原则在实际应用时占比最大呢. 在百度搜索引擎早期,这些阈值的确是相对固定的,比如“相关性”在整体排序中的重量可以占到七成. 但随着互联网的不断发展,检索技术的进步,网页数量的爆发式增长,相关性已经不是难题.

百度搜索Spider3.0升级对站点有什么好处

- - 199IT互联网数据中心
近期百度搜索最大的动作应该就是百度Spider3.0升级了,简单的概括下升级的特点就是:抓取更实时,收录效率更快,对原创优质内容更青睐. 此次升级是把当前离线、全量计算为主的系统,改造成实时、增量计算的全实时调度系统,万亿规模的数据进行实时读写,可以收录90%的网页,速度提升80%. 『抓取、建库更快—提交的内容更容易被抓取』.

百度搜索引擎市场份额达77.7% 谷歌中国降1%

- 品味视界 - cnBeta.COM
艾瑞咨询分析师陈泓宇今日发布分析报告,报告显示第三季度百度在中国搜索引擎市场中的份额达77.7%. 谷歌中国的市场份额则在逐渐减少,较上一季度下降1.0%. 数据显示,2011年第三季度中国搜索引擎市场规模达到55.1亿元,环比上升24.7%,同比上升77.8%,同比增速较上一季度增长13.3个百分点,继续维持快速上升趋势.

听百度搜索PM说:神马搜索怎么做才能打败百度

- - 极客公园-GeekPark
极客一枚,只做搜索,欢迎关注@葛灿辉-搜索数据挖掘. [核心提示]神马搜索借 UC 之势迅速崛起,它能够超越现在的搜索老大百度吗. 百度搜索的产品经理对此提供了一些「内部参考」. 最近神马搜索靠着 UC 浏览器的渠道优势迅速发展壮大,那么它如何才能够打败百度,成为移动搜索市场的老大呢. 超越百度的一定不是下一个百度.

Arcgis for Javascript API下类似于百度搜索A、B、C、D marker的实现方式

- - CSDN博客互联网推荐文章
多说无益,首先贴两张图让大家看看具体的效果:. 图2、Arcgis for Javascript实现的效果. 看到了效果,是不是各位有点小鸡动,是不是也宠宠欲动,有木有. 下面我来详细的给各位说说我的实现思路吧. 其实搜索的对象从类型上来说,应该是点、线、面都支持的,但是在实际的操作过程中,不论是百度还是我自己做的时候,都会将所有的对象抽成点对象,也就是将每一个对象转换成为POI热点,再将对象的坐标信息提取出来,将所有对象入库.

雷士遭遇“造假新闻”事件 总裁吴长江怒斥百度搜索

- xing - cnBeta.COM
近日,雷士照明遭遇百度“造假新闻”事件,对此,雷士照明总裁吴长江怒斥百度搜索:“我坚持认为一家以违背客观事实靠欺骗愚弄消费者的公司,即使现在被某些人吹捧得多么多么伟大,迟早会被淘汰掉!”并表示已对其行为取证,“准备诉诸法律”.