百度搜索评测三阶段
- - 互联网旁观者作为搜索引擎,百度的目的是要让搜索结果的呈现次序更好. 这是设计任何算法之前必须考虑好的问题. “好”必须变成一个可以量化的指标. 来自百度网页搜索部的彭滔就跟我们介绍了他们的经验. 在百度搜索的发展历程中,“好”的评估方式大致被分为三个阶段. 彭滔取了一个query用作例子:“给我一片关于春天的作文,要长的,快点”.
作为搜索引擎,百度的目的是要让搜索结果的呈现次序更好。何谓更好?这是设计任何算法之前必须考虑好的问题。“好”必须变成一个可以量化的指标。来自百度网页搜索部的彭滔就跟我们介绍了他们的经验。在百度搜索的发展历程中,“好”的评估方式大致被分为三个阶段。彭滔取了一个query用作例子:“给我一片关于春天的作文,要长的,快点”。这个例子的目的性很强,评判的主要标准在于解决特定问题。
第一个阶段,是由PM来给搜索排序中的第一页的结果打分,0分是最差,4分是最好。如果4分结果靠前,这个算法在这个query上就被定义为一个较好的算法:
第二个阶段是第一个阶段的多人版,即抽取较多的query,从外包公司请来一大批兼职人员(evaluator)来评分,然后取平均值。对于正确率高的evaluator给予奖励,即可以认领更多的任务。
第三个阶段彻底改变了“好”的定义:直接在线上环境进行AB testing,根据首次点击的上升/下降情况,以及用户翻页的次数等指标来评估。为了减少随机性对实验结果的影响,还采取了空转、反转等步骤来加固实验。
究竟百度这样的评估方法是否给我们带来了一个越来越好的搜索引擎?相信每个用户心里,都会对“好的搜索引擎”有不同的定义;而由于每个用户的query不同,结论的偏差肯定是有的。最后,彭滔也提出了对个性化搜索的展望,相信这个领域仍有非常大的挖掘空间。