LibShortText - 短文本分类

标签: 数据挖掘 | 发表时间:2014-01-22 10:43 | 作者:黄言之
出处:http://blog.sina.com.cn/netreview

Chih-Jen Lin的新作。
http://www.csie.ntu.edu.tw/~cjlin/

  • LIBSVM: a simple and easy-to-use support vector machines tool for classification (C-SVC, nu-SVC), regression (epsilon-SVR, nu-SVR), and distribution estimation.
    It includes a GUI for both classification and regression. Version 1.0 released in April 2000. Current Version: 3.17, April 2013.
    See software document published in ACM TIST: pdf, ps.gz, ACM digital lib.
  • LIBLINEAR: a library for large linear classification. It is very suitable for document classification. Version 1.0 released in April 2007. Current Version: 1.93, January 2013.
  • LibShortText: a library for short-text classification and analysis. Version 1.0 released in February 2013. Current Version: 1.0, February 2013.

 

Introduction

LibShortText is an open source tool for short-text classification and analysis. It can handle the classification of, for example, titles, questions, sentences, and short messages. Main features of LibShortText include

  • It is more efficient than general text-mining packages. On a typical computer, processing and training 10 million short texts takes only around half an hour.
  • The fast training and testing is built upon the linear classifier LIBLINEAR
  • Default options often work well without tedious tuning.
  • An interactive tool for error analysis is included. Based on the property that each short text contains few words, LibShortText provides details in predicting each text.

  青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟!!   你不得不信的星座秘密

相关 [libshorttext 文本 分类] 推荐:

LibShortText - 短文本分类

- - 互联网旁观者
Chih-Jen Lin的新作.   青春就应该这样绽放   游戏测试:三国时期谁是你最好的兄弟.

LibShortText简要入门

- - SegmentFault 最新的文章
LibShortText是一个开源的Python短文本(包括标题、短信、问题、句子等)分类工具包. 它在 LibLinear的基础上针对短文本进一步优化,主要特性有:. - 直接输入文本,无需做特征向量化的预处理. - 二元分词(Bigram),不去停顿词,不做词性过滤. - 基于线性核SVM分类器(参见 SVM原理简介:最大间隔分类器),训练和测试的效率极高.

用scipy(scikit-learn)做文本分类

- - CSDN博客研发管理推荐文章
文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无所谓)麻烦留言告知下现在的benchmark,万谢. 20newsgroups官网上给出了3个数据集,这里我们用最原始的 20news-19997.tar.gz.

基于KNN的文本分类实战

- - 樂天笔记
本文讲述如何使用scikit-learn的KNN工具对文本进行分类. K-近邻算法,简称KNN(k-Nearest Neighbor),是一个相当简单的分类/预测算法. 其主要思想就是,选取与待分类/预测数据的最相似的K个训练数据,通过对这K个数据的结果或者分类标号取平均、取众数等方法得到待分类/预测数据的结果或者分类标号.

python 中文文本分类 - CSDN博客

- -
3,结构化表示--构建词向量空间. 即已经分好类的文本资料(例如:语料库里是一系列txt文章,这些文章按照主题归入到不同分类的目录中,如 .\art\21.txt). 推荐语料库:复旦中文文本分类语料库,下载链接:http://download.csdn.net/detail/github_36326955/9747927.

[转]Tensorflow实现的CNN文本分类

- - Soul Joy Hub
在这篇文章中,我们将实现一个类似于Kim Yoon的卷积神经网络语句分类的模型. 本文提出的模型在一系列文本分类任务(如情感分析)中实现了良好的分类性能,并已成为新的文本分类架构的标准基准. 本文假设你已经熟悉了应用于NLP的卷积神经网络的基础知识. 如果没有,建议先阅读Understanding Convolutional Neural Networks for NLP 以获得必要的背景.

文本分析漫谈-分类器中的关键词提取

- flychen50 - UGC广播站
作者:人人网UGC团队成员 刘威 人人网UGC团队博客. 面对人人网海量的UGC,数据挖掘工作势在必行,能把用户最想要的信息推荐出来,是我们正在研究的课题之一. 在推荐系统中,分类器是个非常重要的部分. 分类器的研究重点落在两个方面,一方面是文本关键词的提取,一方面是对已有关键词或标签的文本进行训练分类.

[转载]基于贝叶斯算法的文本分类算法

- - 小蚊子乐园
原文地址: 基于贝叶斯算法的文本分类算法 作者: TBKKEN.     因为要做一个关于数据挖掘的算法应用PPT,虽然知道很多数据挖掘的算法怎么使用,但是需要讲解它们的原理,还真的需要耗费很多精力,之前做一个曲线拟合,已经发在博客里,现在做贝叶斯算法的基础原理. 分类是把一个事物分到某个类别中.

[转][转]Facebook 开源的快速文本分类器 FastText

- - heiyeluren的blog(黑夜路人的开源世界)
比深度学习快几个数量级,详解Facebook最新开源工具——fastText. 导读:Facebook声称fastText比其他学习方法要快得多,能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇”,特别是与深度模型对比,fastText能将训练时间由数天缩短到几秒钟. Facebook FAIR实验室在最新博客中宣布将开源资料库fastText,声称相比深度模型,fastText能将训练时间由数天缩短到几秒钟.

自然语言处理第一番之文本分类器

- - 小石头的码疯窝
文本分类应该是自然语言处理中最普遍的一个应用,例如文章自动分类、邮件自动分类、垃圾邮件识别、用户情感分类等等,在生活中有很多例子,这篇文章主要从传统和深度学习两块来解释下我们如何做一个文本分类器. 传统的文本方法的主要流程是人工设计一些特征,从原始文档中提取特征,然后指定分类器如LR、SVM,训练模型对文章进行分类,比较经典的特征提取方法如频次法、tf-idf、互信息方法、N-Gram.