手把手教你做文本挖掘

标签: bigdata | 发表时间:2017-02-10 08:00 | 作者:
出处:http://itindex.net/admin/pagedetail

大数据

文 | 刘顺祥

一、文本挖掘定义

文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。

大数据

二、文本挖掘步骤

1)读取数据库或本地外部文本文件

2)文本分词

2.1)自定义字典

2.2)自定义停止词

2.3)分词

2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤

3)构建文档-词条矩阵并转换为数据框

4)对数据框建立统计、挖掘模型

5)结果反馈

三、文本挖掘所需工具

本次文本挖掘将使用R语言实现,除此还需加载几个R包,它们是tm包、tmcn包、Rwordseg包和wordcloud包。其中tmcn包和Rwordseg包无法在CRAN镜像中下载到,有关这两个包的下载方法 可参见下文>>>

四、实战

本文所用数据集来自于sougou实验室数据,具体可至 链接下载>>>

本文对该数据集做了整合,将各个主题下的新闻汇总到一张csv表格中,数据格式如下图所示:

d大数据

具体数据可至文章后面的链接。

大数据

大数据

接下来需要对新闻内容进行分词,在分词之前需要导入一些自定义字典,目的是提高切词的准确性。由于文本中涉及到军事、医疗、财经、体育等方面的内容,故需要将搜狗字典插入到本次分析的字典集中。

大数据

大数据

如果需要卸载某些已导入字典的话,可以使用uninstallDict()函数。

分词前将中文中的英文字母统统去掉。

大数据

图中圈出来的词对后续的分析并没有什么实际意义,故需要将其剔除,即删除停止词。

大数据

大数据

停止词创建好后,该如何删除76条新闻中实际意义的词呢?下面通过自定义删除停止词的函数加以实现。

大数据

大数据

相比与之前的分词结果,这里瘦身了很多,剔除了诸如“是”、“的”、“到”、“这”等无意义的次。

判别分词结果的好坏,最快捷的方法是绘制文字云,可以清晰的查看哪些词不该出现或哪些词分割的不准确。

大数据

大数据

仍然存在一些无意义的词(如说、日、个、去等)和分割不准确的词语(如黄金周切割为黄金,医药切割为药等),这里限于篇幅的原因,就不进行再次添加自定义词汇和停止词。

大数据

大数据

此时语料库中存放了76条新闻的分词结果。

大数据

大数据

从图中可知,文档-词条矩阵包含了76行和7939列,行代表76条新闻,列代表7939个词;该矩阵实际上为稀疏矩阵,其中矩阵中非0元素有11655个,而0元素有591709,稀疏率达到98%;最后,这7939个词中,最频繁的一个词出现在了49条新闻中。

由于稀疏矩阵的稀疏率过高,这里将剔除一些出现频次极地的词语。

大数据

大数据

这样一来,矩阵中列大幅减少,当前矩阵只包含了116列,即116个词语。

为了便于进一步的统计建模,需要将矩阵转换为数据框格式。

大数据

大数据

总结

所以在实际的文本挖掘过程中,最为困难和耗费时间的就是分词部分,既要准确分词,又要剔除无意义的词语,这对文本挖掘者是一种挑战。

文中数据和脚本可至如下链接下载:

http://yunpan.cn/cupyBj9xTkHe7 访问密码 a88b

作者:刘顺祥。数据分析师,热爱数据分析与挖掘工作,擅长使用R语言

End.

转载请注明来自36大数据(36dsj.com): 36大数据» 手把手教你做文本挖掘

相关 [手把 文本挖掘] 推荐:

手把手教你做文本挖掘

- - IT瘾-bigdata
文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法. 文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法. 1)读取数据库或本地外部文本文件. 2.4)文字云检索哪些词切的不准确、哪些词没有意义,需要循环2.1、2.2和 2.3步骤.

最近在整理文本挖掘

- - 刘思喆 @ 贝吉塔行星
最近事情很多,每天下班回来,自己弄些东西吃,稀里糊涂就到了21点. 跟着再浏览一下圈子信息,时间更是倏地一下就到了0点,然后第二天变熊猫……. 翻译《R in a nutshell》,三月底应该会到出版社那边. 重头戏,整理文本挖掘的相关技术. 明天会在公司内部进行文本挖掘的培训,下面是提纲:. 说到文本挖掘,就要说一下文本云可视化.

文本挖掘算法、热度识别体系:美味爱读是如何搭建个性化阅读架构的

- - PingWest
最近我在使用一款AVOS公司推出的个性化新闻类阅读产品—— 美味爱读,与其他产品相比,它推送的内容更加精确并具有时效性. 令人意外的是,这款产品本身并不在AVOS公司的产品计划中,而是由AVOS中国团队的四位工程师——孙宁、倪华杰、杨朝中和庄晓丹所提出的. 2011年4月,Youtube的两位创始人Chad Hurley和陈士骏从雅虎手中收购了书签网站 Delicious,在此基础上成立了AVOS公司.

手把手教你使用GoAgent

- sky fire - iGFW
因为本人是文科生,本来就不适合写程序和脚本,因此AutoGoAgent出现了种种问题,而且GoAgent中自带的上传工具比AutoGoAgent还简单-_-. 如果您使用AutoGoAgent出现了问题,您可以跟着这篇文章做一遍. 在Google APP Engine中申请帐号、上传GoAgent服务器端.

手把手教你用jpcap抓包

- - ITeye博客
本文原创,转载请注明出处~. 在工作中经常需要抓包进行分析,我们可以使用各种工具来抓包,比如常用的tcpdump和wireshark. 但有时候我们想用程序来进行控制,比如把抓到的包存储到数据库中,以后可以进行查询等等. 我在工作中用的是Java,那么就用它来做示范吧. 本教程在centos和ubuntu上测试通过.

手把手教你 Spark 性能调优

- - ImportNew
上周四接到反馈,集群部分 spark 任务执行很慢,且经常出错,参数改来改去怎么都无法优化其性能和解决频繁随机报错的问题. 看了下任务的历史运行情况,平均时间 3h 左右,而且极其不稳定,偶尔还会报错:. 在有限的计算下,job的运行时长和数据量大小正相关,在本例中,数据量大小基本稳定,可以排除是日志量级波动导致的问题:.

手把手教你伪装成超级黑客

- 月朗星稀 - 煎蛋
好莱坞那些美国大片里,哪个黑客不是噼里啪啦键盘上一阵乱打,然后屏幕上一行行代码一阵乱跳之后就入侵成功. 想不想也感受一下这种牛逼的感觉. 如果你的答案是“是”的话……你可以点开hackertyper.net玩一把. 打开之后界面上有几个选项,如果大家懒得研究的话,直接用默认值也可以,点下面的“Hack!”按钮稍等片刻就会到一个全黑的界面,这时你就可以在键盘上拼命乱打了.

海外购之Amazon亚马逊购物手把手教程

- yird - 什么值得买
本篇教程以Amazon亚马逊为例,一步一步手把手教你从注册账号到下单成功,希望本文能帮助初次进行海外购的网友安全的迈出第一步,“什么值得买”网站愿更多的网友能够享受到海外购的实惠和乐趣. 在浏览器的地址栏输入http://www.amazon.com. 恭喜你,到此你已经成功注册账号,迈出了海外购的第一步.

手把手教你如何成为X战警

- Jiang - 煎蛋
X战警里这样那样的超能力,大家是不是早就眼红了呢. 其实自己动手,丰衣足食,你也能够拥有. //“X战警超能力套装,只要998. 没错,不是99998,不是9998,是998. © ivanchaos for 煎蛋, 2011.

海外购之转运手把手教程

- Hming - 什么值得买
之前我们曾经发布过海外购之Amazon亚马逊购物手把手教程,这次什么值得买给大家带来的是转运手把手教程,以百通为例,供海外购新手参考. 1.在浏览器的地址栏输入http://www.buytong.com. 3.输入注册信息,注意带*号为必填. 5.登陆在左侧菜单中选择“我的百通网”并点击“账户信息”.