<< JDBCTemplate和HibernateTemplate事物源码解析 - - ITeye技术网站 | 首页 | 元数据管理是指标管理与知识管理的基石_233网校论文中心_管理其它相关论文_管理学论文 >>

isnowfy/snownlp · 基于pathon 中文自然语言处理库

SnowNLP: Simplified Chinese Text Processing

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。注意本程序都是处理的unicode编码,所以使用时请自行decode成unicode。

Features

  • 中文分词(TnT 3-gram 隐马)
  • 词性标准(TnT 3-gram 隐马)
  • 情感分析
  • 文本分类(Naive Bayes)
  • 转换成拼音
  • 繁体转简体
  • 提取文本关键词(TextRank算法)
  • 提取文本摘要(TextRank算法)
  • tf,idf
  • Tokenization(分割成句子)
  • 文本相似(BM25
  • 支持python3(感谢erning

阅读全文……

标签 : ,



发表评论 发送引用通报