MALLET简介

标签: mallet 简介 | 发表时间:2014-08-16 18:15 | 作者:wuxiaoer717
出处:http://blog.csdn.net
MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包。

MALLET包括复杂的用于 文件分类的工具:
有效的用于转换文本到“特征”的程序,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树)。以及一些通用的指标用于评估分类器性能。

除了分类,MALLET包括 序列标注的工具,像从文本中提供命名实体的应用。算法包括隐马尔科夫模型,最大熵马尔科夫模型,和条件随机场。这些方法在一个扩展的系统中实现,用于有限状态机转换器。

主题建模对于分析大规模的无标签文本集合非常有用。
MALLET中的 主题建模(topic modeling)工具集包括有效的,基于采样的Latent Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA的实现.

MALLET中的很多算法依赖于数值优化(NUmerical Optimization)。MALLET包括有效的有限内存BFGS的实现(在许多其他优化方法中),

除了复杂的机器学习应用,MALLET包括转换文本文件为数值表示,然后进行有效处理的程序。该处理是通过一种灵活的“pipes”系统来实现的。它处理各种不同的任务,像标记字符串,去除停顿词,转换序列为计数向量。

另外,MALLET的一种称为GRMM的附加包,包含对通用图形化模型中的推理的支持。利用任意图像结构来训练CRFs。

注:MALLET工具集是一个开源软件,基于CPL发布。

作者:wuxiaoer717 发表于2014-8-16 10:15:41 原文链接
阅读:0 评论:0 查看评论

相关 [mallet 简介] 推荐:

MALLET简介

- - CSDN博客推荐文章
MALLET:基于Java语言的用于统计自然语言处理,文件分类,聚类,主题建模,信息提取,和其他的用于文本的机器学习应用的Java包. MALLET包括复杂的用于 文件分类的工具:. 有效的用于转换文本到“特征”的程序,多种多样的算法(包括朴素贝叶斯,最大熵,和决策树). 以及一些通用的指标用于评估分类器性能.

Mallet的基本使用

- - ITeye博客
下载mallet包,注意里面已经含有了训练数据集. (1)在bin\mallet.bat里面第33行左右的位置加入.  CMD命令行进入解压目录,如 C:\mallet-2.0.7. 1. 将源文件格式转换为mallet自己的处理格式. 2.使用mallet算法库中的NaiveBayes算法训练获得分类器.

Flask-Babel 简介

- yinseny - python.cn(jobs, news)
本文有一个格式好看一点,并且有语法高亮的版本放在 readthedocs,欢迎浏览. 本文是原创,不是翻译,不过本文其实是谈翻译的. 话说用 wordpress 的 WYSIWYG 编辑器写这样的文章真痛苦啊,格式一不小心就乱了,本文是用 rst 写成,编译为 html,然后贴到这边来的. 最近用 Flask 给公司做了个小 web 应用,做的时候用英文了,现在要求翻译成中文.

AsciiDoc简介

- dayu - 桃源
AsciiDoc 是一种简单的基于纯文本的文档生成工具, 与它类似的还有 reStructuredText, Markdown. 说是生成文档, 其实它可以将纯文本文件转换成各种类型, 比如:. Man Page (示例). Graphviz 图形 (示例). 使用AsciiDoc进行文档编写最著名的恐怕是Git官方的 Git User’s Manual (我表示对于初学者很难看懂), 这篇博客也是通过AsciiDoc生成, 文后会附上本文的原始代码以便参考..

ABAP简介

- - 博客园_首页
中文名称:高级企业应用编程语言. 英文全称:Advanced Business Application Programming. 德语全称:Allgemeiner Berichtsaufbereitungsprozessor(通用报表预处理器). 概述:一种高级编程语言,起源于20世纪80年代,由德国软件公司SAP开发,主要用作SAP的编程,现行版本为ABAP/4,同时支持面向过程和面向对象.

json简介

- - ITeye博客
    JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于阅读和编写,同时也易于机器解析和生成. 它基于ECMA262语言规范(1999-12第三版)中JavaScript编程语言的一个子集. JSON采用与编程语言无关的文本格式,但是也使用了类C语言(包括C, C++, C#, Java, JavaScript, Perl, Python等)的习惯,这些特性使JSON成为理想的数据交换格式.

[转]amanda 简介

- - 小鸥的博客
    安装mysql数据库是会发现三个用户 mysql 、postmyql 、amanda,其中amanda是什么呢.   Amanda 是最早出现的开源备份 软件. 它的名字来自Maryland大学. Amanda的意思是高级Maryland 硬盘归档器..   Amanda通过 操作系统上 一些自带的备份工具,例如tar(Unix/linux)、zip(Windows)来实现备份的计划,自动化和跟踪等功能.

[转]HBase简介

- - 小鸥的博客
   Hbase是一个分布式开源数据库,基于Hadoop分布式文件系统,模仿并提供了基于Google文件系统的Bigtable数据库的所有功能. 其目标是处理非常庞大的表,可以用普通的计算机处理超过10亿行数据,并且有数百万列元素组成的数据表. Hbase可以直接使用本地文件系统或者Hadoop作为数据存储方式,不过为了提高数据可靠性和系统的健壮性,发挥Hbase处理大数据量等功能,需要使用Hadoop作为文件系统.

Learning to Rank 简介

- - 博客园_首页
  去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值. L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(比如LambdaRank)的思想非常新颖,可以在其他领域中进行借鉴.

CSRF简介

- - 互联网 - ITeye博客
转自: http://www.cnblogs.com/hyddd/archive/2009/04/09/1432744.html.   CSRF(Cross-site request forgery),中文名称:跨站请求伪造,也被称为:one click attack/session riding,缩写为:CSRF/XSRF.