jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本

标签: 软件更新新闻 | 发表时间:2013-12-21 10:30 | 作者:
出处:http://www.oschina.net/?from=rss

jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.

jcseg-1.9.2更新内容:

1. 配置文件中词库多目录加载, 多个目录使用';'隔开.

    例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2

2. 修复中文分数识别可能的一种错误组合的bug.

    例如: 三二分之,现在可以很好的处理这些情况。

3. 修复部分中文分数无法转换为阿拉伯分数的bug.

    这个是一个逻辑处理上面的bug, 中文分数正常识别了,但是逻辑判断上面的bug导致没有转换。

4. 词库合并工具bug修复. 

    最新版本的词库已经上传到google code, 请使用最新版本的词库。

5. 词库加载错误友好提示. 

    如果词库中某些词条的格式错误,jcseg会直接终止,现在改成了提示用户哪个词库的哪个词条出错了,利于纠正过来。

6. 对复杂的数字和英文组合词进行再次切分。

    这个是本次更新最大的亮点,例如:qq2013会被切分成:qq2013/ qq/ 2013,chenxin619315@gmail.com会被切分成:chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

    当然,你可以选择不开启这个功能。jcseg.properties中的控制选项。

    #Wether to start the secondary segmentation for the complex english words.
    jcseg.ensencondseg = 1

    #min length of the secondary simple token. (better larger than 1)
    jcseg.stokenminlen = 2

    jcseg对英文的处理是通过空格和标点来断开的,默认jcseg保留了一些标点,也就是保留标点会当作字符来处理,这样可以识别一些复杂常用的组合词,例如:k&r, c++等。就拿qq2013来说,其他的分词器都会切分成:qq/ 2013, jcseg认为两个字符组合在一起肯定有其特定的含义,要保留组合,同时如果进行二次切分,可以避免带来的检索命中下降的情况。


7. 将自动保留的标点放置到了jcseg.properties配置文件中, 方便更改并且默认去除了对/,^等的保留. 

    方便用户自定义配置保留标点,也可以选择去掉。。。

感谢网友的反馈和支持,祝您心情愉快。。。 


相关 [jcseg java 开源] 推荐:

Jcseg java中文分词器

- - 企业架构 - ITeye博客
Jcseg[dʒɛ'​ke'sɛ]完整版本(源码, 词库, 帮助文档, 词库管理工具, jar文件)下载:  http://sourceforge.net/projects/jcseg . jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene, solr, elasticsearch(New)的分词接口..

jcseg-1.9.2 发布 - Java开源轻量级中文分词器+里程碑版本

- - 开源中国社区最新新闻
jcseg是使用java开发的一款轻量级的开源中文分词器, 并且提供了最新版本的lucene和solr分词接口.. jcseg-1.9.2更新内容:. 配置文件中词库多目录加载, 多个目录使用';'隔开..     例如:在jcseg.properties中设置lexicon.path=/java/jcseg/lex1;/java/jcseg/lex2.

Java开源建站工具

- Amom - 阮一峰的网络日志
美国程序员Jon Scott Stevens,公布了他的创业公司所使用的开发工具清单. 他的语言平台是Java,开发项目是一个网站(还未上线). 所用到的工具都是开源的,可以免费得到. 在目前的创业者之中,用Java作为网站开发语言的人似乎很少. 这当然不是没有原因的,Java看上去确实不像是最便捷的网站开发工具,给人的感觉是用起来麻烦又费事.

Grizzly 2.2发布,开源Java NIO框架

- - ITeye资讯频道
Grizzly框架近日 发布了2.2版本,该版本带来了相当多新特性与改进,而且加入了最新WebSocket规范的实现. Grizzly是一个应用程序框架,专门用于解决编写成千上万用户访问服务器时候产生的各种问题. Grizzly框架诞生于GlassFish项目,能够帮助开发人员利用Java NIO API构建可扩展、高性能、健壮的服务器,编写出可伸缩的服务器端应用.

5 款用来开发 iOS 应用的 Java 开源工具

- - ITeye资讯频道
苹果iOS系统的封闭性一直广为其他语言(如Java)开发者诟病,但随着第三方工具的不断壮大,开发人员逐渐摆脱 政策束缚,开始使用自己熟悉的语言来编写iOS本地应用,或将其他平台上的应用移植到iOS上. 本文为你介绍5款开源的开发工具,帮助你使用Java轻松开发iOS应用. Codename One是一个针对移动应用开发者的、开源的、跨平台的Java工具,旨在帮助Java开发者通过单一代码库来针对所有移动平台(智能手机和平板电脑)构建本地应用,且无需在应用性能、功能或开发简易性方面妥协.

Java:解析sql语句的一个开源项目

- - 脚本爱好者
有时候一些数据不支持sql语句,那么我们为了使其应用更加方便,sql语句可以在接口中包装一下,自己写parser太复杂,工作量不小,这里有一个开源的项目可以帮助我们做这个事情. With this example class you can easily get the list of tables in a select statement (including subqueries and joins and, as soon as the union code will be ready, unions).

常用的Java开源报表工具汇总

- - ITeye博客
是一个基于Java的开源报表工具,它可以在Java环境下像其他IDE报表工具一样来制作报表,支持PDF、HTML、XLS、CSV和XML文件输出格式,是当前Java开发者最常用的报表工具. < Aspose.Cells for JasperReports试用版下载>. 一个Eclipse-based开放源代码报表系统.

Java 开源博客 Solo 1.9.0 发布 - 新皮肤

- - 开源中国社区最新新闻
这个版本主要是改进了评论模版机制,让大家更方便皮肤制作,并发布了一款新皮肤:9IPHP. Solo 是一款 一个命令就能搭建好的 Java 开源博客系统,并内置了 15+ 套精心制作的皮肤. 除此之外,Solo 还有着非常活跃的 社区,文章分享到社区后可以让很多人看到,产生丰富的交流互动.

NutzWk 4.0.5 发布,Java 企业级开源开发框架

- - 开源中国社区最新新闻
NutzWk 基于Nutz的开源企业级开发框架 . 本项目源于2010年,那时老东家还在使用Jsp和Struts1,需要手动创建并释放连接池、需要配置XML请求路径和类映射关系、要支持刚刚兴起的JSON非常痛苦等等的原因,开始选择适用“快速开发、功能丰富、扩展性强、性能优越”等技术要求的框架产品,讨厌Spring的繁杂配置、Hibernate及Mybatis的繁琐,讨厌一切让开发变得低效和繁杂的技术,这和Nutz的设计理念不谋而合.