个性化搜索
随着大数据日益成为IT领域的主流,如何利用大数据为业务提供支持以及来扩展市场成为当今众多公司追逐的目标。目前,比较热门的领域有两块:recommendation(推荐系统)和personalization search(个性化搜索)。
这两者有着很大的关联性和相似性,都是在大数据的环境得到了充分的发展,特别是recommendation,在Netflix公司举办的一个比赛---奖金一百万美元。极大的推动了学术界和工业界对recommendation的热情。recommendation和personalization这两者最主要的区别是:recommendation除了个性化以外比较追逐多样性(diversity)而personalization除了个性化以外对精准性(accuracy)有着很高的要求。如,对于recommendation来说,当一个用户输入nike时,如果该用户在过去购买过篮球鞋,搜索引擎除了会返回一些篮球鞋还会返回如篮球,篮球衣等信息给用户;而对于personalization来说,则会全部返回篮球鞋给用户。
本文注重介绍有关personalization search的相关知识。据OneStat公司做的一份分析报告指出,“23.6% 搜索关键字的长度为2,77.2%的搜索关键字的长度小于3”。这说明了用户给搜索引擎的信息量很少。如,java(可以指印尼的一个岛,也可以指java 编程语言),apple(可以为一种水果,也可以为电子数码产品)。正是这种关键字含义的模棱两可以及目前大部分搜索引擎一般只根据流行度来排名而没有结合用户的特定环境来返回检索结果,导致了personalization search的发展,特别是在一些电子商务网站如淘宝,京东等。
personalization search 通过结合用户profile 来提高搜索精度。通过对初步返回的结果进行re-rank,得到返回给用户的最终的结果。