FastText 文本分类使用心得 - CSDN博客

标签： | 发表时间：2018-03-14 14:10 | 作者：

出处：http://blog.csdn.net

最近在一个项目里使用了fasttext[1]，这是facebook今年开源的一个词向量与文本分类工具，在学术上没有什么创新点，但是好处就是模型简单，训练速度又非常快。我在最近的一个项目里尝试了一下，发现用起来真的很顺手，做出来的结果也可以达到上线使用的标准。

其实fasttext使用的模型与word2vec的模型在结构上是一样的，拿cbow来说，不同的只是在于word2vec cbow的目标是通过当前词的前后N个词来预测当前词，在使用层次softmax的时候，huffman树叶子节点处是训练语料里所有词的向量。

而fasttext在进行文本分类时，huffmax树叶子节点处是每一个类别标签的词向量，在训练的过程中，训练语料的每一个词也会得到对应的词向量，输入为一个window内的词对应的词向量，hidden layer为这几个词的线性相加，相加的结果作为该文档的向量，再通过层次softmax得到预测标签，结合文档的真实标签计算loss，梯度与迭代更新词向量。

fasttext有别于word2vec的另一点是加了ngram切分这个trick，将长词再通过ngram切分为几个短词，这样对于未登录词也可以通过切出来的ngram词向量合并为一个词。由于中文的词大多比较短，这对英文语料的用处会比中文语料更大。

此外，fasttext相比deep learning模型的优点是训练速度极快。我们目前使用fasttext来进行客户填写的订单地址到镇这一级别的分类。每一个省份建立一个模型，每个模型要分的类别都有1000多类，200万左右的训练数据，12个线程1分钟不到就可以训练完成，最终的分类准确率与模型鲁棒性都比较高(区县级别分类正确准确率高于99.5%，镇级别高于98%)，尤其是对缩写地名，或者漏写了市级行政区、区县级行政区的情况也都可以正确处理。

参数方面

loss function选用hs（hierarchical softmax）要比ns(negative sampling) 训练速度要快很多倍，并且准确率也更高。
wordNgrams 默认为1，设置为2以上可以明显提高准确率。
如果词数不是很多，可以把bucket设置的小一点，否则预留会预留太多bucket使模型太大。

因为facebook提供的只是C++版本的代码，原本还以为要自己封装一个python接口，结果上github一搜已经有封装的python接口了[2]。用起来特别方便，觉得还不能满足自己的使用要求，修改源码也非常方便。

对于同样的文本分类问题，后来还用单向LSTM做了一遍，输入pre-trained的embedding词向量，并且在训练的时候fine-tune，与fasttext对比，即使使用了GTX 980的GPU，训练速度还是要慢很多，并且，准确准确率和fasttext是差不多的。

所以对于文本分类，先用fasttext做一个简单的baseline是很适合的。

[1] https://github.com/facebookresearch/fastText
[2] https://github.com/salestock/fastText.py

相关 [fasttext 文本分类] 推荐：

[转][转]Facebook 开源的快速文本分类器 FastText

- - heiyeluren的blog（黑夜路人的开源世界）

比深度学习快几个数量级，详解Facebook最新开源工具——fastText. 导读：Facebook声称fastText比其他学习方法要快得多，能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇”，特别是与深度模型对比，fastText能将训练时间由数天缩短到几秒钟. Facebook FAIR实验室在最新博客中宣布将开源资料库fastText，声称相比深度模型，fastText能将训练时间由数天缩短到几秒钟.

FastText 文本分类使用心得 - CSDN博客

- -

最近在一个项目里使用了fasttext[1]，这是facebook今年开源的一个词向量与文本分类工具，在学术上没有什么创新点，但是好处就是模型简单，训练速度又非常快. 我在最近的一个项目里尝试了一下，发现用起来真的很顺手，做出来的结果也可以达到上线使用的标准. 其实fasttext使用的模型与word2vec的模型在结构上是一样的，拿cbow来说，不同的只是在于word2vec cbow的目标是通过当前词的前后N个词来预测当前词，在使用层次softmax的时候，huffman树叶子节点处是训练语料里所有词的向量.

Facebook词向量工具FastText

- - 标点符

fastText是Facebook于2016年开源的一个词向量计算和文本分类工具，在文本分类任务中，fastText（浅层网络）往往能取得和深度网络相媲美的精度，却在训练时间上比深度网络快许多数量级. 在标准的多核CPU上，能够训练10亿词级别语料库的词向量在10分钟之内，能够分类有着30万多类别的50多万句子在1分钟之内.

技术解读 | 基于fastText和RNN的语义消歧实战

- - 机器之心

在我们云脑科技最近的一个项目中，需要对文本中提取的实体进行消歧(WSD, Word Sense Disambiguation)，即确定某个实体在当前上下文中是我们期望的一个意义. 美国电影《坏女孩》由Myriad Pictures Inc.于2013年出品. 讲述雅蕾克丝，一个女同性恋，父母离异，母亲重新找了一个继父，却又早早自杀身亡；父亲也重新找了个继母，继母对她百般刁难.

LibShortText - 短文本分类

- - 互联网旁观者

Chih-Jen Lin的新作. 青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟.

NLP︱高级词向量表达（二）——FastText（简述、学习笔记） - CSDN博客

- -

FastText是Facebook开发的一款快速文本分类器，提供简单而高效的文本分类和表征学习的方法，不过这个项目其实是有两部分组成的，一部分是这篇文章介绍的. fastText 文本分类（paper：. Classification（高效文本分类技巧）），. 另一部分是词嵌入学习（paper:. Information（使用子字信息丰富词汇向量））.

用scipy(scikit-learn)做文本分类

- - CSDN博客研发管理推荐文章

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢. 20newsgroups官网上给出了3个数据集，这里我们用最原始的 20news-19997.tar.gz.

基于KNN的文本分类实战

- - 樂天笔记

本文讲述如何使用scikit-learn的KNN工具对文本进行分类. K-近邻算法，简称KNN（k-Nearest Neighbor），是一个相当简单的分类/预测算法. 其主要思想就是，选取与待分类/预测数据的最相似的K个训练数据，通过对这K个数据的结果或者分类标号取平均、取众数等方法得到待分类/预测数据的结果或者分类标号.

python 中文文本分类 - CSDN博客

- -

3，结构化表示--构建词向量空间. 即已经分好类的文本资料（例如：语料库里是一系列txt文章，这些文章按照主题归入到不同分类的目录中，如 .\art\21.txt）. 推荐语料库：复旦中文文本分类语料库，下载链接：http://download.csdn.net/detail/github_36326955/9747927.

[转]Tensorflow实现的CNN文本分类

- - Soul Joy Hub

在这篇文章中，我们将实现一个类似于Kim Yoon的卷积神经网络语句分类的模型. 本文提出的模型在一系列文本分类任务（如情感分析）中实现了良好的分类性能，并已成为新的文本分类架构的标准基准. 本文假设你已经熟悉了应用于NLP的卷积神经网络的基础知识. 如果没有，建议先阅读Understanding Convolutional Neural Networks for NLP 以获得必要的背景.