小谈gensim
- - 七磅-d0evi1gensim是一个用于主题分析(LSI/LDA)的工具包. 它的强大,在于大量使用了矩阵运算(速度比循环判断快),提供了基本上一整套的主题建模、相似判断、分布式训练、甚至是可以进行相似判断的服务器. 如果语料过大,或者主题数过大,跑起来还是相当吃力. 当然,它支持分布式,如果有许多台机器资源的话,可以考虑搭建相应集群进行训练.
gensim是一个用于主题分析(LSI/LDA)的工具包。它的强大,在于大量使用了矩阵运算(速度比循环判断快),提供了基本上一整套的主题建模、相似判断、分布式训练、甚至是可以进行相似判断的服务器。十分适合中小语料的主题建模。
如果语料过大,或者主题数过大,跑起来还是相当吃力。当然,它支持分布式,如果有许多台机器资源的话,可以考虑搭建相应集群进行训练。
gensim的教程已经由笔者进行了翻译,发布在我的github.io上,地址为:
http://d0evi1.github.io/gensim/