爬取QQ空间3000万用户，玩玩大数据分析

标签：其他 | 发表时间：2015-07-21 14:56 | 作者：妇科圣手

出处：http://www.freebuf.com

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周，目前总共爬了3000万QQ数据，其中有300万包含用户（QQ号，昵称，空间名称，头像，最新一条说说内容，最新说说的发表时间，空间简介，性别，生日，所在省份，城市）的详细数据。

目前已经爬到我的第7圈好友（depth=7）共3000万数据。

爬虫主程序运行界面：

爬虫程序设计：

大致设计思路是模仿工厂的生产车间，使用三大独立循环线程组（GetWaitList，CrawlerQQInfos，SaveData）。

详细设计图：

再看看，我根据这份数据生成的一些有趣的统计图吧！

1、大家一般都在啥时候发说说呢？

从图中看出一天最冷门的时候是凌晨4点，这时全国正在睡觉的人最多。大家最亢奋的是晚上10点到11点，人们都喜欢睡前看看别人的空间，发条说说。中午12点左右也有一波小高峰。

2、中国人都喜欢在几月生小孩呢？

从图中可看出1月和10月出生的人最多，4月的最少。总体来说上半年的出生率比下半年的低。分析可得，1月多是因为很多人填的是默认的1月1号。4月少，是因为中国人不喜欢4这个数字。10月出生率最高，是因为那时天气不冷不热，秋收后也不是太忙了的原因。（所以我是11月11日？注孤独）。

3、这是我目前爬取的数据人群地区分布

4、数据人群的年龄分布。

上两张图，整好和我的信息相吻合。我是湖南人，在江苏读的书，而湖南大部分人都在广东打工。所以地区分布中，这三个省整好排在前四名当中。而我又是1990年出生的，对应年龄分布图1990年的用户最多。从目前的数据来看，无论是分布地区以及年龄阶段与我的关联还非常大，随着数据量的不断增加这种关联会逐渐变小，统计图也会逐渐接近全国用户的真实情况。（这都是博主的话啊，我是河南人，不过人群年龄应该是差不多的，90和91年的比较多。）

点评下：

你说我91年的也不能接触的都是81年的人吧？肯定是同龄的人比较多，其实如果博主能分析下在TX上面投资多少钱，根据用户秀恩爱的程度，这样的数据，我觉得还听可以的。（吐槽下。）

5、数据人群性别分布

6、下面系列图是根据一些“关键字”在说说中出现的频率统计出来的，相当有意思。

单个用户的行为是很难看出规律的，大数据的意义在于它会不断矫正那个平衡点，从而得出反应宏观现象最真实的情况。数据量越大，平衡点动荡的幅度便越小。进而能够根据当前的数据趋势预测后续的发展，为决策提供有力依据

6.1 图说股市。

现在我们拥有海量的互联网社交数据，如QQ的说说，sina的微博数据。我觉得这些数据拥有惊人的利用价值，这非常值得我们去研究，去挖掘。我想，用它们来做一些股市或者其它方面的分析预测是可行的，准确度应该也是非常高的。

将股票中的关键字做海量数据分析，比如会得出当日讨论股票热度排行榜。进而能得到海量讨论股票的用户，再通过市场的实际反馈找出股票上涨及下跌的正相关因子，再对这些海量数据进行分析计算得出最靠谱股票推荐大神排行榜。对这些用户分级，分优先度及抓取密度来拿数据。用这些数据分析出哪些是靠谱的股票肯定靠谱！

6.2 群众讨论最多的明星排行榜，还是很靠谱的。(我爱汪峰哥，我也爱Jay！ —信仰在空中飘扬)

插播汪峰头条：素不相识，光听新闻的片面之词就断下结论，那是完整的真相吗？背后的故事又有谁了解多少？实在反感那些破口大骂的，更是可恶一些媒体就事三番五次的戏谑。

祝峰哥幸福，我很喜欢你的歌！

6.2.png

6.3 最为用户喜爱的手机品牌

6.3.png

6.4 人们最喜欢谈论的互联网公司，阿里之所以这么低估计是大家都喜欢叫它淘宝或者天猫吧。

6.4.png

6.5 QQ空间中讨论的最为频繁的社交平台排行榜。

6.5.png

6.6 生活的统计图

6.6.png

爱>恨； 开心>伤心; 笑声>叹气声； 吃货很多

谁特么说中国不幸福了，这满满的都是正能量数据啊。

好了，其实还可以做很多其它的分析。如果大家有什么有趣的数据分析想知道的，那就给我留言吧。

技术不多说了，程序不难，多线程数据库操作却是把我搞苦了。还好，现在程序差不多稳定了。过程也是很有意思的，有空我再写个程序升级过程中的那些趣事吧。我觉得一个美妙的程序一定是高度模拟现实的，就像飞机模仿蜻蜓，雷达模仿蝙蝠一样。这次的程序设计就是模拟的工厂的生产线。

*投稿：妇科圣手，原文地址： http://www.cnblogs.com/marktoy/p/4546217.html

爬取QQ空间3000万用户，玩玩大数据分析

- - FreeBuf.COM | 关注黑客与极客

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序. 程序断断续续的运行了两周，目前总共爬了3000万QQ数据，其中有300万包含用户（QQ号，昵称，空间名称，头像，最新一条说说内容，最新说说的发表时间，空间简介，性别，生日，所在省份，城市）的详细数据. 目前已经爬到我的第7圈好友（depth=7）共3000万数据.

QQ 用户关系的迁移

- zhangyi - 云风的 BLOG

最近网上最热的话题算是 QQ 和 360 的火并了. 我不是 360 的用户，也没有装 QQ 的 client. 偶尔有朋友非要用 QQ 联系我时，我会用 web qq 登陆上去，收个消息，回复一下，然后就下来. 我有个 6 位 qq 号码（曾经还有个 5 位的），04 年开始就不怎么用了. 在腾讯，我有几个私交很不错的朋友，对这家公司没什么恶感.

iPhone QQ 2011 V1.4发布新增空间动态页面

- kunlove - cnBeta.COM

中秋将至，iPhone QQ赶在节日来临之前为果粉们献上一份惊喜――QQ2011 for iPhone V1.4全新发布啦，现在可以通过QQ查看好友和自己的空间动态了，还可以直接浏览空间主页，随时关注好友动态，与好友互动分享你的节日问候.

QQ空间(iPhone)1.3.0 发布：好友界面全新改版

- 洞箫 - cnBeta.COM

QQ空间(iPhone)1.3.0 正式上线App Stroe，新增可能认识的人，同时好友界面全新改版，容纳更多内容，界面更加美观时尚，一起来看看吧.

文章： QQ空间技术架构之深刻揭密

- - InfoQ cn

QQ空间作为腾讯海量互联网服务产品，经过近七年的发展，实现了从十万级到亿级同时在线的飞跃. 在这个过程中，QQ空间团队遇到了哪些技术挑战. 其站点前后台架构随着业务规模的变化又进行了怎样的演进与变迁. 成长背后有过怎样的心酸和快乐……. 支付宝与乌云分享架构安全设计指南. 西门子如何系统培养架构师以及内部系统架构解密.

全球社交媒体排行榜：QQ空间第四新浪微博第五

- - 行业资讯

　　 BV4社交媒体排行榜. 　　3月7日消息，据国际著名第三方认证机构法国国际检验局（BV4）发布的品牌报告显示，Facebook以291亿美元的品牌价值成全球最有影响力的社交媒体品牌，腾讯Qzone排名第四. 　　在发布的30家社交媒体品牌里，中国品牌占8席，腾讯Qzone以112亿美元的品牌市值列总榜单第四，新浪微博第五（品牌价值39.94亿美元），腾讯微博第八（品牌价值35.26亿美元），人人网第12（品牌价值26.16亿美元），腾讯朋友第14（品牌价值21.93亿美元），开心网第18（品牌价值18.91亿美元），土豆网第21（品牌价值15.43亿美元），优酷第24（品牌价值13.94亿美元）.

爬取QQ空间3000万用户，玩玩大数据分析

相关 [qq 空间用户] 推荐：

爬取QQ空间3000万用户，玩玩大数据分析

QQ 用户关系的迁移

iPhone QQ 2011 V1.4发布新增空间动态页面

QQ空间(iPhone)1.3.0 发布：好友界面全新改版

文章： QQ空间技术架构之深刻揭密

全球社交媒体排行榜：QQ空间第四新浪微博第五

数据分享：2012年元旦，大家都在QQ空间说什么？

QQ新闻自爆窥探用户隐私

QQ帮主马化腾:用户体验的10/100/1000法则

独家首发：QQ空间相册公布热门机型排行榜，iPhone 4榜上有名

相关文章

订阅

爬取QQ空间3000万用户，玩玩大数据分析

相关 [qq 空间 用户] 推荐：

相关文章

订阅

相关 [qq 空间用户] 推荐：