发布一个python的分词模块

标签: python 分词 模块 | 发表时间:2008-02-19 05:41 | 作者:(author unknown) bin
出处:http://fakechris.iteye.com
http://code.google.com/p/pychseg/

第一个版本实现了基于的MMSEG中文分词算法Python 实现。MMSEG实际上是一个正向最大匹配+多个规则的分词算法。链接给出的几个网站写的很清楚了。在开发过程中我增加了一个规则来处理原来的算法中有可能出现的冲突问题。当所有的规则都无法唯一的确定一个chunk时,优先选择后面比较长的词。开发过程中参照了MMSEG的Java实现和ruby实现。并且对性能进行了初步的优化。

目前的性能数据:在Pentium D 2.8G的CPU下处理2.9MB的文本数据,不开启pysco的情况下104s,开启pysco的情况下90s,能达到32KB/s。经测试速度能达到 Java版本MMSEG的1/3,未来如果要进一步优化速度的话应该是把关键的算法的实现移植到c语言中。

TODO:

    * 实现NLTK兼容的接口
    * C语言级别的优化
    * 实现其他算法,目前考虑一个ICTCLAS的python实现,要看有没有时间
    * 支持停用词,支持unicode的字母数字检测等

与分词有关的其他想法

    * 研究一下ferret/cferret,能否实现一个python binding并且结合进去
    * 与nlp/datamining的进一步结合

已有 1 人发表留言,猛击->>这里<<-参与讨论


ITeye推荐



相关 [python 分词 模块] 推荐:

发布一个python的分词模块

- bin - One Piece of Programming
第一个版本实现了基于的MMSEG中文分词算法Python 实现. MMSEG实际上是一个正向最大匹配+多个规则的分词算法. 链接给出的几个网站写的很清楚了. 在开发过程中我增加了一个规则来处理原来的算法中有可能出现的冲突问题. 当所有的规则都无法唯一的确定一个chunk时,优先选择后面比较长的词. 开发过程中参照了MMSEG的Java实现和ruby实现.

Python分词模块推荐:结巴中文分词

- - 标点符
就是前面说的中文分词,这里需要介绍的是一个分词效果较好,使用起来像但方便的Python模块:结巴. 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG). 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合. 对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法.

python满足你需要的50个模块

- lostsnow - 奋斗足迹|崔玉松
Python具有强大的扩展能力,网上有人列出了50个很棒的Python模块,包含几乎所有的需要:比如Databases,GUIs,Images, Sound, OS interaction, Web,以及其他. 2011年01月25日 — Httpsqs Python Client. 2011年01月25日 — Python Queue 的多线程(multi thread)死锁问题.

[Python] [不分词版]Chinese-Text-Classification: Tensorflow CNN 模型实现的中文文本分类器

- - V2EX
从现在的结果来看,分词的版本( https://www.v2ex.com/t/404977#reply6 )准确率稍微高一点. 项目地址: https://github.com/fendouai/Chinese-Text-Classification. jieba 分词的版本在 master 分支,不分词的版本在 dev 分支.

dropbox讲python

- chuang - Initiative
dropbox定制优化CPython虚拟机,自己搞了个malloc调度算法. 那个 !!!111cos(0). 期待这次PyCon China 2011.

Python调试

- - 企业架构 - ITeye博客
原文地址: http://blog.csdn.net/xuyuefei1988/article/details/19399137. 1、下面网上收罗的资料初学者应该够用了,但对比IBM的Python 代码调试技巧:. IBM:包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试:.

Python WSGI 初探

- - 坚实的幻想
在构建 Web 应用时,通常会有 Web Server 和 Application Server 两种角色. 其中 Web Server 主要负责接受来自用户的请求,解析 HTTP 协议,并将请求转发给 Application Server,Application Server 主要负责处理用户的请求,并将处理的结果返回给 Web Server,最终 Web Server 将结果返回给用户.

Python实现逻辑回归(Logistic Regression in Python)

- - 神刀安全网
Logistic Regression in Python ,作了中文翻译,并相应补充了一些内容. 本文并不研究逻辑回归具体算法实现,而是使用了一些算法库,旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手. 逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术,广泛应用于金融、医学、犯罪学和其他社会科学中.

python 下载文件

- Eric - python相关的python 教程和python 下载你可以在老王python里寻觅
之前给大家分享的python 多线程抓取网页,我觉的大家看了以后,应该会对python 抓取网页有个很好的认识,不过这个只能用python 来抓取到网页的源代码,如果你想用做python 下载文件的话,上面的可能就不适合你了,最近我在用python 做文件下载的时候就遇到这个问题了,不过最终得以解决,为了让大家以后碰过这个问题有更好的解决办法,我把代码发出来:.

python代码调试

- - 阿里古古
【转自: http://blog.csdn.net/luckeryin/article/details/4477233】. 本文讨论在没有方便的IDE工具可用的情况下,使用pdb调试python程序. 例如,有模拟税收计算的程序:. debug_demo函数计算4500的入账所需的税收. 在需要插入断点的地方,加入红色部分代码:如果_DEBUG值为True,则在该处开始调试(加入_DEBUG的原因是为了方便打开/关闭调试).