实体搜索引擎现在的发展状况如何?未来是否明晰?

标签: 实体 搜索引擎 发展 | 发表时间:2012-10-26 09:08 | 作者:姚旭
出处:http://www.zhihu.com/rss
背景:
实体(entity)搜索是相对于关键词(keyword)搜索而言的
传统的关键词搜索虽然目前已经可以达到很高的"智能"水平, 搜索结果在很大程度上可以帮助用户找到需要的信息
但对于"搜索引擎"这个系统自身而言, 其实并不了解搜索query本身有什么意思, 对于搜索"盗梦空间"和"喵喵喵", 搜索引擎做的事情基本差不多. 你告诉他要找什么, 他就去按照字面意思勤勤恳恳的去找. 搜索引擎无法直接回答query, 只能做一个信息的中转.
实体搜索关注的重点不是"关键词"级别的信息, 而是"对象", 比如: 人, 电影, 软件, 小说, 公司, 组织等等. 从关键词向实体转化, 希望可以从更精细的角度来理解和组织搜索结果. 在一定程度上可以理解query的意思, 并给出自己的答案. 一些更智能更个性化的交互也依赖于实体作为基础, 比如"好看的电影"

数据:
实体搜索需要前期花大量的时间和精力在建立关于实体的信息数据(这里有很多不同的叫法, 比如Ontology, 语义网等等). 传统的html并不是一个有效的信息载体, 至少截至目前, 主流的html tag对于信息组织而言是没有实际意义的. 结构化数据通过html展现出来以后, 原有的属性信息都丢失了. 也许在数据库中, 一部电影和导演的关系是可以通过关系数据库表体现出来的, 但html中td,tr之类的标签是无法表示这种关系的.
所以, 对于搜索引擎而言, 要从数据建设做起, 基本上的通用做法大概分以下几个方面
1) web实体属性的提取和消歧
2) 实体信息分类
3) 实体关系挖掘
目前这部分上, 基本上领先的搜索引擎都在不断的做数据积累, 这部分既要保证信息覆盖的广度, 同时还要有足够高的信息精度. 

产品:
数据建设是为了搜索引擎产品服务的, 在数据层面积累的基础上, 需要通过搜索产品来体现数据的价值. 除了将实体信息直接作为类似百科形式直接使用外, 产品层面上已经逐步产生了很多有意思的新内容.  
举一些有趣的例子:
1. 实体的关联关系
"类似XXX的电影"这类query是实体关系的一种表现, 传统关键词搜索在这类信息上是完全不够用的, 产品上 从"搜索"逐步向"发现"转变

2. 实体的属性信息 
"张艺谋导演的爱情电影"

"zhang yimou's movies"

https://www.google.com/#hl=en&newwindow=1&safe=off&output=search&sclient=psy-ab&q=zhang+yimou%27s+movies&oq=zhang+yimou%27s+movies&gs_l=hp.3..0i30l4.1573.1573.0.2222.1.1.0.0.0.0.110.110.0j1.1.0.les%3B..0.0...1c.2.DbEO7b5tMck&pbx=1&bav=on.2,or.r_gc.r_pw.r_cp.r_qf.&fp=50b71fb07fb045ac&bpcl=35466521&biw=1276&bih=683


https://www.google.com/#hl=en&newwindow=1&safe=off&output=search&sclient=psy-ab&q=mo+yan%27s+books&oq=mo+yan%27s+books&gs_l=hp.3..0i13.1463.6836.0.7007.21.16.5.0.0.0.182.1845.6j10.16.0.les%3B..0.0...1c.1j4.92QgtDMv97E&pbx=1&bav=on.2,or.r_gc.r_pw.r_cp.r_qf.&fp=50b71fb07fb045ac&bpcl=35466521&biw=1276&bih=639

3. 实体的分类信息
"杀毒软件", 这个是网上新闻看来的

http://www.chinaz.com/news/2012/0906/273130.shtml

此外, 据说还有不少更惊艳的结果, 有些内容似乎外界看不到, 或者只有部分用户才能看到. 目前只能管中窥豹, 简单展望一下.

最后说说未来
实体也好, ontology也好, 语义网也好, 这些名词在搜索这个应用场景下很大程度上在说一件事情. 就是在关键词的基础上, 可以扩展出更多隐藏在关键词背后的信息, 用于搜索结果的组织, 展现, 排序. 搜索引擎不再定位于一个单纯的索引机器, 而是将信息进行扩展和重组. 至少从目前工业界的实际进展来看, 效果还是很振奋的. 这是个高投入的活, 几个搜索引擎大公司同时在这一方向上发力, 我个人感觉目前已经从数据积累期逐步向产品产出这个阶段转化了. 

-- 完 --

下载知乎 iPhone 客户端: http://zhi.hu/ios

相关 [实体 搜索引擎 发展] 推荐:

实体搜索引擎现在的发展状况如何?未来是否明晰?

- - 知乎每日精选
实体(entity)搜索是相对于关键词(keyword)搜索而言的. 传统的关键词搜索虽然目前已经可以达到很高的"智能"水平, 搜索结果在很大程度上可以帮助用户找到需要的信息. 但对于"搜索引擎"这个系统自身而言, 其实并不了解搜索query本身有什么意思, 对于搜索"盗梦空间"和"喵喵喵", 搜索引擎做的事情基本差不多.

Airbnb深度学习搜索引擎实践-模型发展历程 – Semocean

- -
该文章是KDD 2019上发表的Airbnb的搜索引擎主要算法的文章,主要介绍了Airbnb算法的演进历程. 还是Airbnb一贯的朴实无华的风格:不在乎有多少创新,更多是工业界结合业务上的算法工程,该文章很难的是文章中不仅介绍了Airbnb的算法,以及使用该算法的出发点和考虑,同时还记录了中间的各种坑,甚至一些失败的实验,真的是经验的无私分享,写作手法更像各大厂内网的技术总结分享文章.

移动应用搜索引擎Chomp创始人:网络的发展又走到了1996年

- chaim - 36氪
编者按:本文由移动应用搜索引擎创业公司Chomp的共同创始人Ben Keighran撰写,他在文中提出了一个非常重要的概念“网络应用化”,并且为创业者就移动互联网提供了非常有价值的分析. 全新的概念和角度使得本文非常值得一读. 1996年是互联网发展史上的一个好年成. 在这之前两年网景公司诞生了,Excite@home也正在紧锣密鼓的将我们的家庭高速互联起来,Webvan开始将消费者与农场新鲜果蔬直接联系起来,Flooz也开始推出在线虚拟货币.

uSniff:BT种子搜索引擎

- leqoqo - 软件志
一、uSniff相关信息: 1、官方主页:http://www.usniff.com/ 2、简介:uSniff是一个BT种子搜索引擎,简单、易用、实时是其最大的优点,其搜索引擎数据库包含了17个知名种子站点的种子信息,目的是想发展成为世界上最大的BT种子搜索引擎,而且对于每个种子,该搜索引擎都会进行安全认证,以保证用户的正常使用.

资源搜索引擎

- - 不死鸟 - 分享为王官网
易搜 阿里百度夸克网盘搜索. tg中文搜索 电报资源搜索引擎. 千帆搜索 电报资源搜索引擎. 影视搜 影视聚合搜索引擎. 辅助狗 无捆绑软件搜索引擎. 查报告 可查询各行业的分析报告. 学霸盘 课程资料百度网盘. 库问搜索 PDF文献资料搜索.

人眼启发视觉搜索引擎

- feng823 - Solidot
Google上周宣布将支持声音和图片进行搜索,但一家创业公司在图像搜索方面走在了Google前面. 源自伦敦帝国学院研究项目的创业公司Cortexica,开发出视觉搜索工具,通过手机拍摄产品照片,它会自动呈现价格信息. Cortexica已经发布了一个用于比较酒价格的工具WINEfindr. Cortexica的视觉搜索技术是受到了人眼视觉系统的启发,它能识别出一个目标的关键特征,不受方位、大小、光线亮暗的影响.

比较好的学术搜索引擎

- hfut_chen - C++博客-首页原创精华区
     摘要: 1、http://scholar.google.com/. Google学术搜索滤掉了普通搜索结果中大量的垃圾信息,排列出文章的不同版本以及被其它文章的引用次数. 略显不足的是,它搜索出来的结果没有按照权威度(譬如影响因子、引用次数)依次排列,在中国搜索出来的,前几页可能大部分为中文的一些期刊的文章.

Blekko 对搜索引擎的新探索

- thinkingit - 知乎的博客
Blekko 这款搜索产品做的如何. 从目前我的使用过程来看,Blekko还是很让人激动的. 在谈Blekko之前就要先问:为何在搜索这个看似已经垄断的行业还会有人想去分一杯羹,这些小团队能与Google或微软这样的巨头抗衡吗. 比如之前的Powerset,后来的Cuil,和现在的Blekko. 在Google之前Yahoo是靠人工收录网页,Google的算法和蜘蛛革了搜索的命,一直垄断搜索业十余年,而现在随着WEB 2.0的发展,让人又看到了搜索业革命的火种,可以说Blekko就是这样的一个产品.

Mr.Icons:图标icon搜索引擎

- 壮壮爱 - 够趣堂
之前Anliu在如何更换更好的icon文章里面推荐了4个icon搜索引擎,目前部分已经不复存在. 不过Mr.Icons倒是又一个不错的选择,可以搜索图标icon进行下载,有PNG、ico格式以及不同大小提供下载. Mr.Icons还提供图标icon集打包下载,比如动物图标等. 和之前的介绍几款搜索引擎一样,依然不支持中文.

迅搜全文搜索引擎 XunSearch

- Le - 开源中国社区最新软件
迅搜(xunsearch)是采用 C/C++ 基于 xapian 和 scws 开发的全文搜索引擎解决方案,提供 PHP 语言的开发接口. 支持海量数据高速检索,功能强大,简单易用. 本项目旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎. 全文检索可以帮助您降低服务器搜索负荷、极大程度的提高搜索速度和用户体验.