jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本
jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.
jcseg-1.9.2更新内容:
1. 配置文件中词库多目录加载, 多个目录使用';'隔开.
例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2
2. 修复中文分数识别可能的一种错误组合的bug.
例如: 三二分之,现在可以很好的处理这些情况。
3. 修复部分中文分数无法转换为阿拉伯分数的bug.
这个是一个逻辑处理上面的bug, 中文分数正常识别了,但是逻辑判断上面的bug导致没有转换。
4. 词库合并工具bug修复.
最新版本的词库已经上传到google code, 请使用最新版本的词库。
5. 词库加载错误友好提示.
如果词库中某些词条的格式错误,jcseg会直接终止,现在改成了提示用户哪个词库的哪个词条出错了,利于纠正过来。
6. 对复杂的数字和英文组合词进行再次切分。
这个是本次更新最大的亮点,例如:qq2013会被切分成:qq2013/ qq/ 2013,[email protected]会被切分成:[email protected]/ chenxin/ 619315/ gmail/ com。
当然,你可以选择不开启这个功能。jcseg.properties中的控制选项。
#Wether to start the secondary segmentation for the complex english words.
jcseg.ensencondseg = 1
#min length of the secondary simple token. (better larger than 1)
jcseg.stokenminlen = 2
jcseg对英文的处理是通过空格和标点来断开的,默认jcseg保留了一些标点,也就是保留标点会当作字符来处理,这样可以识别一些复杂常用的组合词,例如:k&r, c++等。就拿qq2013来说,其他的分词器都会切分成:qq/ 2013, jcseg认为两个字符组合在一起肯定有其特定的含义,要保留组合,同时如果进行二次切分,可以避免带来的检索命中下降的情况。
7. 将自动保留的标点放置到了jcseg.properties配置文件中, 方便更改并且默认去除了对/,^等的保留.
方便用户自定义配置保留标点,也可以选择去掉。。。
感谢网友的反馈和支持,祝您心情愉快。。。