为什么标签系统和全文检索还不够好用?

标签: 人品界面 软硬挨踢 内容 匹配 搜索 | 发表时间:2013-10-12 18:07 | 作者:Calon
出处:http://calon.weblogs.us

Web 2.0 概念红火的时候,Delicious、Flickr 等服务如日中天,其使用标签(tag)管理和检索内容的方式也颇受追捧,网站和应用程序纷纷学习。但这么些年用下来,除了 Delicious 之外,并没有觉得标签有多好用,特别是像 Evernote 和为知这样需要保存内容的笔记工具。

一个原因是,不支持组合标签的标签系统就是残废。

第二个原因是,增加标签的人工成本太高,而得到的回报不够。
一篇内容颇丰富的笔记要保证日后能够通过标签分类筛出来,可能要增加5个以上的标签,然而还是有一定几率要靠全文搜索才能定位,甚至可能找不到。

为什么?
因为标签要求精确匹配,如果我增加“米塞斯”、“实在论”的标签,而检索的时候用“米瑟斯”、“唯实论”,必然抓瞎。
于是,一方面,增加标签时要尽量多写,这样操作成本必然越来越高;
另一方面,就是在检索时反复尝试,这样就完全体现不出标签系统的好处,特别是还有组合标签功能时,你根本不知道到底是哪个标签的筛选落空了。这样,标签还不如全文检索来得方便。

但全文检索也解决不了上述同义、近义词的问题,要是文章内容中只出现“喜大普奔”,你轮换着搜“头顶青天”、“狂喜乱舞”那也白搭。
更进一步,同义、近义词也有覆盖不到的时候,比如涉及“李森科”的文章通篇都没有出现“伪科学”一词,但我们在搜索这篇文章时,不记得涉及的人名,只关心主题,很可能会输入“伪科学”而不是“李森科”,于是一无所获。

所以,大概只有等到程序能够理解自然语言的含义,才能以符合预期的方式检索信息吧。


通过支付宝为内容付费,支持作者 本文内容值得我付费 | Feed | Twitter | 邮件联系 | 知识共享许可协议

相关 [标签 系统 全文检索] 推荐:

为什么标签系统和全文检索还不够好用?

- - 滯銷書
Web 2.0 概念红火的时候,Delicious、Flickr 等服务如日中天,其使用标签(tag)管理和检索内容的方式也颇受追捧,网站和应用程序纷纷学习. 但这么些年用下来,除了 Delicious 之外,并没有觉得标签有多好用,特别是像 Evernote 和为知这样需要保存内容的笔记工具. 一个原因是,不支持组合标签的标签系统就是残废.

分布式全文检索系统SolrCloud简介

- - UC技术博客
本文简单描述SolrCloud的特性,基本结构和入门,基于Solr4.5版本. Lucene是一个Java语言编写的利用倒排原理实现的文本检索类库. Solr是以Lucene为基础实现的文本检索应用服务. SolrCloud是Solr4.0版本开发出的具有开创意义的基于Solr和Zookeeper的分布式搜索方案,或者可以说,SolrCloud是Solr的一种部署方式.

MySQL全文检索笔记

- - 博客园_首页
MySQL 4.x版本及以上版本提供了全文检索支持,但是表的存储引擎类型必须为MyISAM,以下是建表SQL,注意其中显式设置了存储引擎类型.    其中FULLTEXT(title, body) 给title和body这两列建立全文索引,之后检索的时候注意必须同时指定这两列.    说明全文匹配时忽略大小写.

集成Hibernate Search做全文检索

- - CSDN博客架构设计推荐文章
1、修改hibernate主配置文件,增加:. 一个是存储的实现,一个是存储的路径. @Analyzer(impl=SmartChineseAnalyzer.class)//分词器 public class Pageinfo implements java.io.Serializable {. // columns START //省略1000字.

全文检索的基本原理

- - 企业架构 - ITeye博客
根据 http://lucene.apache.org/java/docs/index.html定义:. Lucene 是一个高效的,基于Java 的全文检索库. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 我们生活中的数据总体分为两种: 结构化数据和 非结构化数据.

全文检索引擎Solr系列—–全文检索基本原理

- - ImportNew
场景:小时候我们都使用过新华字典,妈妈叫你翻开第38页,找到“坑爹”所在的位置,此时你会怎么查呢. 毫无疑问,你的眼睛会从38页的第一个字开始从头至尾地扫描,直到找到“坑爹”二字为止. 这种搜索方法叫做 顺序扫描法. 对于少量的数据,使用顺序扫描是够用的. 但是妈妈叫你查出坑爹的“坑”字在哪一页时,你要是从第一页的第一个字逐个的扫描下去,那你真的是被坑了.

PHP高性能全文检索开源解决方案:Xunsearch

- - 互联网旁观者
Xunsearch 是一个高性能、全功能的全文检索解决方案. Xunsearch 旨在帮助一般开发者针对既有的海量数据,快速而方便地建立自己的全文搜索引擎. Xunsearch 中文译名为“ 迅搜”,代码中的经常被缩写为 XS,既是英文名称的缩略也是中文声母缩写. 这儿的“迅”是快速的意思,至少包含了两层涵义:其一代表了搜索结果的响应能力,其二则为二次开发难度、速度.

Cloudera Search: 轻松实现Hadoop全文检索

- - Hadoop中国
近期Cloudera Search的推出,对于曾经做信息检索和使用过Lucene/Solr的我来讲,虽然不是那种令人乍舌的新技术,但从应用层面来考虑,我相信,对于业界而言,毫无疑问是一个相当令人兴奋的消息. 想想看,有了集一整套解决方案在手的Cloudera Search在手,现在任何人都可以轻而易举地像使用谷歌百度那样对存储在Hadoop里面的数据进行全文检索了.

Elasticsearch使用REST API实现全文检索

- - zzm
通过rest api添加检索数据,阅读官方文档可以发现,elasticsearch支持动态映射,但是其中有不少问题,且听慢慢详解. 1 Elasticsearch常用的rest api. 2 Elasticsearch使用bulk命令添加索引数据.   elasticsearch支持通过http请求响应服务,因此通过curl命令,可以发送http请求,并得到json返回内容.

Lucene实践:全文检索的基本原理

- - 开源软件 - ITeye博客
http://lucene.apache.org/java/docs/index.html 定义:. 是一个高效的,基于Java. 所以在了解Lucene之前要费一番工夫了解一下全文检索. 我们生活中的数据总体分为两种:. 结构化数据: 指具有固定格式或有限长度的数据,如数据库,元数据等. 非结构化数据: 指不定长或无固定格式的数据,如邮件,word文档等.