基于社交网络的情绪化分析II

标签: 社交网络 情绪 分析 | 发表时间:2015-06-26 22:21 | 作者:whiterbear
出处:http://blog.csdn.net

基于社交网络的情绪化分析II

By 白熊花田( http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。

上一篇进行了微博数据的抓取,这一篇进行数据的处理介绍。


无意义微博的定义

观察发现微博中有很多的微博是用户参与某些活动而转发的微博,比如:“SmashHit,作者:MediocreAB。推荐!“ http://t.cn/8Fkgg9k”;“刚刚下载了豆丁文档:项目公司运营简报模板“ http://t.cn/RPjFZKf”;“#张亮的红包#红包最暖心~[心]我在张亮Sean的红包中抽到了@快的打车提供的“快的打车6元红包”,快来试试手气,你与幸福之间只有一个红包的距离!“ http://t.cn/RZg7iXL”。

将这些微博定义为无意义微博。并通过一个简单的处理,判断其是否为无意义微博,并计算该类微博在整个微博里的比重。

简单的判断

通过上面给的例子,我们可以看出这类微博多半具有两个特征:

  • 带有链接,如:“ http://t.cn/RPjFZKf
  • 带有特定关键字,如:“推荐”,“红包”,“专享”,“交友”等

借助这些特征,我设计了一个简单的判断。思路大致为:首先对微博进行分词,获取该微博中TF-IDF权重最大的几个关键词,如果这几个关键词中含有上述的几个特征,那么就将这个微博定义为无意义微博。(当然也判断分词后的所有词中是否包含这些特征)

注:这里分词使用的是 结巴分词

伪码如下:

  # 定义了一组无意义的关键词组
malWords =[u'红包', u'领取', u'点击', u'专享', u'加号', u'交友', u’http']
# 分词得到8个权值最大的词组
tags = jieba.analyse.extract_tags(content, 8, False)
# 集合判断两个集合是否重复,若有即包含无意义词组,该微博定义为无意义微博
myset = set(malWords) & set(tags)
is_meaningful = 1 if myset.__len__() == 0 else 0

结果

这里使用了matplotlib模块进行了饼状图显示,如图:
这里写图片描述

上图表示的是大工的微博情况。

然后所有学校的数据处理结果如下表格所示:

学校名称 有意义的微博 无意义的微博
大连理工大学 80.0% 20.0%
清华大学 79.0% 21.0%
北京大学 78.0% 22.0%
南京大学 79.0% 21.0%
华东政法大学 83.0% 17.0%

从上表可以看出,这五个学校所发微博中,有意义的微博所占的比例大致相当,约占80.0%左右,其中华东政法大学的比例最高,达到了83.0%,北京大学所占据的比例最低,占了78.0%。

相关代码链接:

总结

这里使用的判定方式过于简单,存在漏判和错误的情况,但是能够判断出大多数的无意义微博。

下一篇,微博的相似度分析。

作者:whiterbear 发表于2015/6/26 22:21:41 原文链接
阅读:0 评论:0 查看评论

相关 [社交网络 情绪 分析] 推荐:

基于社交网络的情绪化分析I

- - CSDN博客编程语言推荐文章
基于社交网络的情绪化分析I. By 白熊花田( http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 之前说要进行微博的数据抓取并进行相关的分析,这里就是了. 这是我的毕设题目,题目来源: 汪顺平博客. 在开始毕设时,我联系过这位博主,当时他是已经下载完数据准备分析了,后面一直没有联系了,参考了他数据下载的代码.

基于社交网络的情绪化分析II

- - CSDN博客推荐文章
基于社交网络的情绪化分析II. By 白熊花田( http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢. 上一篇进行了微博数据的抓取,这一篇进行数据的处理介绍. 观察发现微博中有很多的微博是用户参与某些活动而转发的微博,比如:“SmashHit,作者:MediocreAB.

社交网络分析:大伙如何看待新 iPad?

- - 爱范儿 · Beats of Bits
大数据分析渐渐流行起来,那么人们对于这次的苹果新品发布会又有什么看法呢. 《财富》汇集了两家公司基于 Twitter 给出的分析,目前看来过半评论是积极的. 第一个分析是 Crimson Hexagon 给出的,这家来自哈佛大学的公司分析了与新 iPad 有关的近两百万条 Twitter 消息,提炼出下列内容:.

X-RIME: 基于Hadoop的开源大规模社交网络分析工具

- - 并行实验室 | Parallel Labs
文 / 陈冠诚,史巨伟,杨博(IBM中国研究院),杨寅(人民搜索). 随着互联网的快速发展,涌现出了一大批以Facebook,Twitter,人人,微博等为代表的新型社交网站. 这些网站用户数量的迅速增长使得海量的用户数据不断被产生出来,而如何有效地对这些海量的用户数据进行社交网络分析(Social Network Analysis)正成为一个越来越热门的问题.

社交网络决定树

- changlei - 爱范儿 · Beats of Bits
Guy Kawasaki 是 Alltop.com 网站的联合创始人,也是 Garage Technology Ventures 的创建合伙人. 当然,他更为人们所熟知的角色是苹果前首席布道官,在推广 Macintosh 的过程中上立下不少功劳. Guy Kawasaki 在社交网络上非常活跃,无论 Facebook、Twitter,还是最近推出的 Google+ ,他的信息更新都很频繁.

社交网络的“悖论”

- Felix - 月光博客
  编者按:Nina Khosla,作为一个设计师,同时也是Teethie创始人. Teethie是一个社会化博客形式的创业项目,致力于构建基于兴趣的社区.   近几年来,我们与朋友们在网上聊天的方式发生了根本性的变化. 过去,无论线上线下,我们都只看到一小撮朋友在线进行交流. 曾经似乎让人提心吊胆的互联网世界虽然布满了陌生人,但我们可以与他们一到去探索这个未知的世界.

解析社交网络Tumblr

- - Solidot
网络科学家都在分析Twitter和Facebook的数据,而遗忘了另一个社交网站:雅虎的轻博客Tumblr. 雅虎实验室的Yi Chang和同事弥补上这一空缺. Tumblr有1.6亿用户,发表了700亿帖子,它的帖子没有字符限制,支持图片、视频和音频. Chang和同事分析了去年8到9月之间发表的6亿帖子(预印本),发现90%以上的帖子由图像或文字构成.

社交网络崛起

- - 《商业价值》杂志
2009的8月28日,当由新浪CEO曹国伟亲自主导的神秘项目微博开始内测的时候,更多还是被看作与饭否、嘀咕、滔滔相似的国内众多类Twitter产品之一,不过事情的发展出乎了不少人的意料:新浪成就了一个不同于美国Twitter的、中国本地化的微博产品,并引发了之后3年中国社交网络的一场风暴. 于新浪而言,微博业务的崛起让这家上市10年的老互联网公司重新焕发生机,于中国的社交网络而言,微博是一个无法被忽视的里程碑意义的产品,而微博成功背后更值得玩味的则是:一个最不像Facebook思路做出的产品反而引爆了过去3年的社交网络浪潮.

社交网络 vs 社会化媒体

- 华子 - It Talks--上海魏武挥的博客
Twitter最近发布了一个名为“新闻编辑中心”的服务,专供网站上各路记者收集整理信息使用. 国内新浪微博也是出了名的媒体人扎堆之地,可见国外国内都一样:它首先是一个媒体,其次才是一个社交网络. 长久以来,这两个词是有些混用的,因为象Facebook这样的网站,它当然是一个社交网络(Social network),但又通过share和like两个按钮,网络中不断地流动着各种各样的信息,这个网络,事实上已经成为很多人获取信息的首要媒体渠道(Social media).

社交网络的那些事

- Steven Wu - 爱范儿 · Beats of Bits
在过去的一段时间里,社交网络发生很多事. 先是之前一直被看好的 Color 并不被用户接受,后来Google+ 的亮相更是吸引了无数的眼球. 在 Google+ 亮相后一天,曾经的社交网络霸主 Myspace 被新闻集团以 3500 万美元价格给卖了. 在人们对 Myspace 一片惋惜中,Google+ 不断传来好消息:.