最近在整理文本挖掘
- - 刘思喆 @ 贝吉塔行星最近事情很多,每天下班回来,自己弄些东西吃,稀里糊涂就到了21点. 跟着再浏览一下圈子信息,时间更是倏地一下就到了0点,然后第二天变熊猫……. 翻译《R in a nutshell》,三月底应该会到出版社那边. 重头戏,整理文本挖掘的相关技术. 明天会在公司内部进行文本挖掘的培训,下面是提纲:. 说到文本挖掘,就要说一下文本云可视化.
最近事情很多,每天下班回来,自己弄些东西吃,稀里糊涂就到了21点。跟着再浏览一下圈子信息,时间更是倏地一下就到了0点,然后第二天变熊猫……
主要在忙两件事
明天会在公司内部进行文本挖掘的培训,下面是提纲:
说到文本挖掘,就要说一下文本云可视化。前一段时间老觉得wordcloud这个包的可视化图形不是很美观,于是想重写这个包。但随着深入理解文本云,发现非常不简单,是个 NP问题,一时半会没有太好的处理办法。从实际项目的角度,这种可视化意义不是很大,几经折腾后无奈放弃。
但这其中的折腾还是蛮有意思的,比如最初的想法是可以绘制任意形状的文本云,比如根据中国地图形状(但太丑了,又放弃):
还有类似这样效果的:
有时间再搞吧——但有时间的话就应该在图像识别这块了,囧!