MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。
MALLET包括复杂的用于 文件分类的工具:
有效的用于转换文本到“特征”的程序,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树)。以及一些通用的指标用于评估分类器性能。
除了分类,MALLET包括 序列标注的工具,像从文本中提供命名实体的应用。算法包括隐马尔科夫模型,最大熵马尔科夫模型,和条件随机场。这些方法在一个扩展的系统中实现,用于有限状态机转换器。
主题建模对于分析大规模的无标签文本集合非常有用。
MALLET中的 主题建模(topic modeling)工具集包括有效的,基于采样的Latent
Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA的实现.
MALLET中的很多算法依赖于数值优化(NUmerical Optimization)。MALLET包括有效的有限内存BFGS的实现(在许多其他优化方法中),
除了复杂的机器学习应用,MALLET包括转换文本文件为数值表示,然后进行有效处理的程序。该处理是通过一种灵活的“pipes”系统来实现的。它处理各种不同的任务,像标记字符串,去除停顿词,转换序列为计数向量。
另外,MALLET的一种称为GRMM的附加包,包含对通用图形化模型中的推理的支持。利用任意图像结构来训练CRFs。
注:MALLET工具集是一个开源软件,基于CPL发布。
作者:wuxiaoer717 发表于2014-8-16 10:15:41
原文链接