信息检索导论学习笔记(2)——词项词典及倒排记录表

标签: 信息检索 学习 笔记 | 发表时间:2013-06-08 22:00 | 作者:zinss26914
出处:http://blog.csdn.net

回顾构建倒排索引的主要步骤

  1. 收集待建索引的文档
  2. 对这些文档中的文本进行词条化
  3. 对第二步产生的词条进行语言学处理,得到词项
  4. 根据词项对所有文档建立索引
所谓词条化(tokenization):将原始的字符流转换成一个个词条(token)的过程

文档分析及编码转换

生成字符序列

语言识别,编码方式识别,文件格式等处理,生成字符序列

文档单位的选择

合理的选择“索引粒度”:
  • 如果索引粒度太小,那么由于词项散步在多个细粒度文档中,我们就很可能错过那些重要的段落,也就是说此时正确率高而召回率低
  • 如果索引粒度太大,我们就很可能找到很多不相关的匹配结果,即正确率低而召回率高

词项集合的确定

词条化

定义好文档单位后,词条化是将给定的字符序列拆分成一系列子序列的过程,其中每个子序列称为一个词条(token)

实际检索中分词:
  1. 查询和文档切分采用一致的分词系统
  2. 保证分词速度
  3. 一般原则,没把握的情况下细粒度优先,保证召回率
  4. 多粒度并存

去除停用词

某些情况下,一些常见词在文档和用户需求进行匹配时价值并不大,需要彻底从词汇表中去除。这些词称为停用词(stop word)

常用生成停用词表的方法:
将词项按照文档集频率(collection frequency,每个词项在文档集中出现的频率)从高到低排列,然后手工选择那些语义内容与文档主题关系不大的高频词作为停用词。停用词表中的每个词将在索引过程中被忽略

在信息检索系统不断发展的历程中,有从大停用词表(200~300个词)到小停用词表(7~12个词)最后到不用停用词的趋势。Web搜索引擎通常都不用停用词表


词项归一化



参考链接

作者:zinss26914 发表于2013-6-8 22:00:14 原文链接
阅读:94 评论:0 查看评论

相关 [信息检索 学习 笔记] 推荐:

信息检索导论学习笔记(2)——词项词典及倒排记录表

- - CSDN博客互联网推荐文章
回顾构建倒排索引的主要步骤. 对这些文档中的文本进行词条化. 对第二步产生的词条进行语言学处理,得到词项. 根据词项对所有文档建立索引. 所谓词条化(tokenization):将原始的字符流转换成一个个词条(token)的过程. 语言识别,编码方式识别,文件格式等处理,生成字符序列. 如果索引粒度太小,那么由于词项散步在多个细粒度文档中,我们就很可能错过那些重要的段落,也就是说此时正确率高而召回率低.

shell 学习笔记

- tiger - 游戏人生
将脚本目录加到 PATH 中. 在 dash 中如何进行字符串替换. 将 rst 格式文档转换为 blog 可用的 html 代码. shell 脚本虽然不是非常复杂的程序, 但对于首次接触的我来讲, 多少还是有些忌惮. 不过, 接触任何新事物都需要勇敢面对, 逐步树立信心. 我是冲着把脚本写好去的, 所以, 我的目标是能够写出友好, 健壮, 优美的脚本..

OAuth学习笔记

- 宋大妈 - FeedzShare
来自: 标点符 - FeedzShare  . 发布时间:2011年08月29日,  已有 2 人推荐. OAuth(开放授权)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密的资源(如照片,视频,联系人列表),而无需将用户名和密码提供给第三方应用. OAuth允许用户提供一个令牌,而不是用户名和密码来访问他们存放在特定服务提供者的数据.

Vim学习笔记

- 临池学书 - C++博客-首页原创精华区
最近在学习Vimtutor中的相关内容,Vim的使用博大精深,很多命令一旦不使用就会忘记,下面把其中的没有使用到的相关命令做一个简单的总结,供以后复习使用. 至于常见的保存,插入等等命令,则不予记录,在以后的使用中加深练习即可. To change until the end of a word, type  ce (ce + 修正的单词).

OAuth学习笔记

- jiaosq - 标点符
OAuth(开放授权)是一个开放标准,允许用户让第三方应用访问该用户在某一网站上存储的私密的资源(如照片,视频,联系人列表),而无需将用户名和密码提供给第三方应用. OAuth允许用户提供一个令牌,而不是用户名和密码来访问他们存放在特定服务提供者的数据. 每一个令牌授权一个特定的网站(例如,视频编辑网站)在特定的时段(例如,接下来的2小时内)内访问特定的资源(例如仅仅是某一相册中的视频).

HTML学习笔记

- - CSDN博客推荐文章
超文本标记语言( 英文:HyperText Markup Language,HTML)是为“ 网页创建和其它可在 网页浏览器中看到的信息”设计的一种 标记语言. HTML被用来结构化信息——例如标题、段落和列表等等  点击打开链接. w3schools  点击打开链接 {语法大全,超赞.

jQuery学习笔记

- - ITeye博客
什么是jQuery,它能为我们做什么. jQuery是一个javascript类库或称之为javascript框架. 无需刷新页面从服务器获取信息. 简化常见的javascript任务. 为什么会如此流行或说得到大量用户群的支持:. 多重操作集于一行(避免使用临时变量或不必要的重复代码). jQuery利用了CSS选择符的能力,在DOM中快捷而轻松地获取元素或元素集合.

JdbcTemplate学习笔记

- - SQL - 编程语言 - ITeye博客
1、使用JdbcTemplate的execute()方法执行SQL语句. 2、如果是UPDATE或INSERT,用update()方法.    JdbcTemplate将我们使用的JDBC的流程封装起来,包括了异常的捕捉、SQL的执行、查询结果的转换等等. spring大量使用Template Method模式来封装固定流程的动作,XXXTemplate等类别都是基于这种方式的实现.

Disruptor 学习笔记

- - 开源软件 - ITeye博客
Disruptor 是一个高性能异步处理框架,也可以认为是一个消息框架,它实现了观察者模式. Disruptor 比传统的基于锁的消息框架的优势在于:它是无锁的、CPU友好;它不会清除缓存中的数据,只会覆盖,降低了垃圾回收机制启动的频率. Disruptor 为什么快. 通过内存屏障和原子性的CAS操作替换锁.

Activiti学习笔记

- - 企业架构 - ITeye博客
第一个Activiti的HelloWorld. 获取核心ProcessEngine对象 2. 根据需求,获取对应的服务实例 3. 使用服务方法,做事情 * * @author Administrator * */ public class HelloWorld {. // 加载核心API ProcessEngine.