python 中文文本分类 - CSDN博客

- -

3，结构化表示--构建词向量空间. 即已经分好类的文本资料（例如：语料库里是一系列txt文章，这些文章按照主题归入到不同分类的目录中，如 .\art\21.txt）. 推荐语料库：复旦中文文本分类语料库，下载链接：http://download.csdn.net/detail/github_36326955/9747927.

《Dive into Python 3》中文版

- hama - Wow! Ubuntu

Dive Into Python 是一份很知名的 Python 入门教程，由 Mark Pilgrim 编写，用户可以免费获取电子版本，而中文版则由啄木鸟社区翻译发布 [ 英文版 / 中文版 ]. 前阵子，Mark Pilgrim 又发布了《Dive into Python 3》，此版本的内容涵盖了 Python 3 及其与 Python 2 的区别.

[Python] [不分词版]Chinese-Text-Classification： Tensorflow CNN 模型实现的中文文本分类器

- - V2EX

从现在的结果来看，分词的版本( https://www.v2ex.com/t/404977#reply6 )准确率稍微高一点. 项目地址： https://github.com/fendouai/Chinese-Text-Classification. jieba 分词的版本在 master 分支，不分词的版本在 dev 分支.

如何用Python和机器学习训练中文文本情感分类模型？

- - 神刀安全网

利用Python机器学习框架scikit-learn，我们自己做一个分类模型，对中文评论信息做情感分析. 其中还会介绍中文停用词的处理方法. 前些日子，我在微信后台收到了一则读者的留言. 我一下子有些懵——这怎么还带点播了呢. 但是旋即我醒悟过来，好像是我自己之前挖了个坑. 如何用Python从海量文本抽取主题.

Python分词模块推荐：结巴中文分词

- - 标点符

就是前面说的中文分词，这里需要介绍的是一个分词效果较好，使用起来像但方便的Python模块：结巴. 基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG). 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合. 对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法.

Python做文本情感分析之情感极性分析 - 简书

- -

「NLP」最为目前及其火热的一个领域，已经逐渐渗透进越来越多产业的各项业务中，不知死活的胖子决定对常用的应用功能挨个进行尝试，死活不论……. 「情感极性分析」是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程. 按照处理文本的类别不同，可分为基于新闻评论的情感分析和基于产品评论的情感分析.

dropbox讲python

- chuang - Initiative

dropbox定制优化CPython虚拟机，自己搞了个malloc调度算法. 那个 !!!111cos(0). 期待这次PyCon China 2011.

Python调试

- - 企业架构 - ITeye博客

原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137. 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧：. IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试：.

Python WSGI 初探

- - 坚实的幻想

在构建 Web 应用时，通常会有 Web Server 和 Application Server 两种角色. 其中 Web Server 主要负责接受来自用户的请求，解析 HTTP 协议，并将请求转发给 Application Server，Application Server 主要负责处理用户的请求，并将处理的结果返回给 Web Server，最终 Web Server 将结果返回给用户.

Python实现逻辑回归(Logistic Regression in Python)

- - 神刀安全网

Logistic Regression in Python ，作了中文翻译，并相应补充了一些内容. 本文并不研究逻辑回归具体算法实现，而是使用了一些算法库，旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手. 逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术，广泛应用于金融、医学、犯罪学和其他社会科学中.

python 中文文本分类 - CSDN博客

二，具体细节

1，预处理。希望得到这样的目标：

1.1得到训练集语料库

1.2得到测试语料库

1.3其他

2，中文分词。

2.1概述

2.2分词操作

3，结构化表示--向量空间模型

4，权重策略--TF-IDF

5，分类器

6，评价与小结

7，进一步的讨论：

8，At last

welcome!

(click here to blog column Dive into ML/DL)

相关 [python 中文文本] 推荐：