用WebCollector爬取新浪微博数据

标签: webcollector 新浪微博 数据 | 发表时间:2014-09-02 01:58 | 作者:AJAXHu
出处:http://blog.csdn.net

用WebCollector可以轻松爬取新浪微博的数据.

首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件).

具体步骤:

1.用浏览器打开 http://weibo.cn/pub/   这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码都是以明文传输,所以为了防止盗号,建议新申请账号进行爬取.


2.登陆进去后,进入个人微博界面(不是http://weibo.cn/pub/),使用firebug查看网页的cookie,找到cookie中的gsid_CTandWM的属性

记录gsid_CTandWM的值,以后爬虫登陆新浪,全靠这个值.


3.代码:

代码是基于WebCollector的: WebCollector官网

假设我们要爬取周鸿祎的微博信息.周鸿祎的微博主页:http://weibo.cn/u/1708942053(不登陆只能看第一页)

我们爬取前10页.

public static void main(String[] args) throws IOException{
        CollectionGenerator generator=new CollectionGenerator();
        
        for(int i=1;i<=10;i++){
            generator.addUrl("http://weibo.cn/u/1708942053?page="+i);
        }
        
        Fetcher fetcher=new Fetcher();
        fetcher.setConconfig(new ConnectionConfig() {
            @Override
            public void config(HttpURLConnection hurlc) {
                hurlc.addRequestProperty("User-Agent", "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:26.0) Gecko/20100101 Firefox/26.0");
                hurlc.addRequestProperty("Cookie", "gsid_CTandWM=上一步中获取的gsid_CTandWM的值;");
            }
        });
        
        fetcher.setThreads(2);
        
        fetcher.setHandler(new Handler(){

            @Override
            public void handleMessage(Message msg) {
                Page page=(Page)msg.obj;
                page=ParseUtils.parseDocument(page);
                Elements divs=page.doc.select("div.c");
                for(Element div:divs){                 
                    System.out.println(div.text());
                }
            }
            
        });
        fetcher.fetchAll(generator);
}


结果(部分):

 2014-09-01 17:57:04 INFO default  - fetch null http://weibo.cn/u/1708942053?page=1 
 转发了 央视财经 的微博:#互联网时代#【周鸿祎创业秘笈:做互联网买卖 必须尊崇“用户至上”精神】360公司CEO周鸿祎:互联网讲究的不是把东西卖给谁,而是我如何提供有价值的服务,和我的用户永远保持连接,我的用户不是一锤子买卖,是长期的关系。在互联网上网聚人的力量会产生巨大的化学反应。直播地址http://t.cn/RPkRL1I [组图共4张]  原图 赞[122] 原文转发[732] 原文评论[341] 转发理由:很高兴又见到小丫同学风采依旧,她的边看边聊节目很有意思,试图把网络和电视节目结合,就是边看电视边在网上弹幕。算是探索传统媒体融合新媒体。我送她一本我的新书,学习互联网思维。央视是不是应该给每个员工发一本呢  赞[249] 转发[176] 评论[305] 收藏 08月29日 00:13 来自一加手机 不将就
转发了 ChinaVenture投中集团 的微博:【@周鸿祎 :很多厂商只学到小米皮毛】当时我给这些手机厂商讲了很多道理,现在来看其实就是互联网思维。但很可惜没人理解,觉得危言耸听。所有人都看不起小米,都觉得老周在开玩笑。但今天几乎所有手机商都建立了互联网手机品牌,模仿小米玩饥饿营销、粉丝文化。但都是皮毛...http://t.cn/Rhwpl5c  原图 赞[23] 原文转发[170] 原文评论[46] 转发理由:这本书还要卖啊 版税都捐给抗战老兵,所以别把书中内容剪刀浆糊弄出来,强调一下这本书不是360或我的传记,是用互联网很多公司案例讲述互联网思维//现在微博小编都这么没节操吗?我夸奖腾讯百度小米的这些成功案例都出自我的新书《我的互联网方法论》,但你小编把出处写出来就这么难吗?  赞[174] 转发[75] 评论[164] 收藏 08月31日 21:39 来自一加手机 不将就
突然一位朋友私信我,满嘴喷粪,我问他出什么事了 也不回答,谁帮我查查他怎么回事 [组图共2张]  原图 赞[1294] 转发[671] 评论[2475] 收藏 08月28日 23:30 来自一加手机 不将就
转发了 ChinaVenture投中集团 的微博:【@周鸿祎 :很多厂商只学到小米皮毛】当时我给这些手机厂商讲了很多道理,现在来看其实就是互联网思维。但很可惜没人理解,觉得危言耸听。所有人都看不起小米,都觉得老周在开玩笑。但今天几乎所有手机商都建立了互联网手机品牌,模仿小米玩饥饿营销、粉丝文化。但都是皮毛...http://t.cn/Rhwpl5c  原图 赞[23] 原文转发[170] 原文评论[46] 转发理由:现在微博小编都这么没节操吗?我夸奖腾讯百度小米的这些成功案例都出自我的新书《我的互联网方法论》,但你小编把出处写出来就这么难吗?  赞[113] 转发[132] 评论[142] 收藏 08月31日 21:21 来自nubia Z5S mini

注意:爬虫频率不宜过高,建议不要使用过多线程数.


如果有疑问,可加WebCollector官方讨论群:

QQ群:250108697


作者:AJAXHu 发表于2014-9-1 17:58:57 原文链接
阅读:161 评论:0 查看评论

相关 [webcollector 新浪微博 数据] 推荐:

用WebCollector爬取新浪微博数据

- - CSDN博客互联网推荐文章
用WebCollector可以轻松爬取新浪微博的数据.. 首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件).. 1.用浏览器打开 http://weibo.cn/pub/   这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码都是以明文传输,所以为了防止盗号,建议新申请账号进行爬取..

数据分享:2012下半年新浪微博用户信息

- - 数据范儿
先上个图吧,了解一下我分享的这些数据可以干什么用. 详细数据及解读,请访问专题 2012年@姚晨 @谢娜 @王力宏 新浪微博霸主之争. 2012年 8-12月 新浪微博用户信息. 通过新浪微博API获取,带有精确的查询时间,部分用户为连续监测. 2012年8月1日~2012年12月31日. 每个Case对应1个新浪微博用户的UID、注册时间(不变),以及在特定时间的用户昵称、性别、地址、使用网页版的语言版本、是否认证、粉丝数量、关注数量、互粉数量、发布微博数量和收藏微博数量.

新浪微博运营数据分析工具

- - 风信了

数据:新浪微博企业微博发布时间规律研究

- Luosky - 新媒体营销观察站
企业在新浪微博中是如何使用的,是很多朋友希望了解的问题. 此次新浪微博商务部企业研究小组针对这一问题对企业微博做了一些研究. 针对新浪微博中企业微博总体和一些特定行业的发布规律进行了一定的总结和整理,提出了对企业的发布建议. –在A点,企业发博的比例>转发/评论率的比例,说明该时间段企业发博效率低,建议减少发博量;.

都错了!阿里要用新浪微博的数据干这个

- - 钛媒体TMTpost—把脉科技资本论
自4月29日阿里入股新浪以来,外界开始揣摩马云花5.86亿美元要去干什么,一边倒的观点认为,马云是看中了新浪微博的数据. 没错,笔者也这么认为,但最关键的问题是,马云为何会看中新浪微博的数据、他要用这些数据去干什么,是用来做简单的营销+导流. NO!阿里浪联姻最大的价值在于需求预测模型的构建. 国内数据挖掘企业中,百度有百度指数,数据来源是海量的网页、新闻搜索;新浪微博有微指数,抓取的是微博用户的行为、博文数据;阿里有淘宝指数、数据魔方,数据来源旗下电商店铺、商品浏览记录、商品品类、成交收藏评价数据.

都错了!阿里要用新浪微博的数据干这个

- - 微博之博
自4月29日阿里入股新浪以来,外界开始揣摩马云花5.86亿美元要去干什么,一边倒的观点认为,马云是看中了 新浪微博的数据. 没错,笔者也这么认为,但最关键的问题是,马云为何会看中新浪微博的数据、他要用这些数据去干什么,是用来做简单的营销+导流?NO!阿里浪联姻最大的价值在于需求预测模型的构建. 国内数据挖掘企业中,百度有百度指数,数据来源是海量的网页、新闻搜索;新浪微博有微指数,抓取的是微博用户的行为、博文数据;阿里有淘宝指数、数据魔方,数据来源旗下电商店铺、商品浏览记录、商品品类、成交收藏评价数据.

JAVA爬虫Nutch、WebCollector的正则约束

- - CSDN博客互联网推荐文章
爬虫爬取时,需要约束爬取的范围. 基本所有的爬虫都是通过正则表达式来完成这个约束. 代表"http://www.xinhuanet.com/"后加任意个任意字符(可以是0个). 通过这个正则可以约束爬虫的爬取范围,但是这个正则并不是表示爬取新华网所有的网页. 新华网并不是只有www.xinhuanet.com这一个域名,还有很多子域名,类似:news.xinhuanet.com.

围攻新浪微博

- Jos - 望月的博客
在国内的门户微博中,新浪微博无疑是目前用户数量最多、媒体属性最强的,但是,最近,却连续看到一些互联网的知名人士高调宣布退出或者关闭新浪微博的博文,使用和不使用某个产品本就是个人的自由,但如此高调的宣布,并进行口诛笔伐,就值得关注了. 本文试图通过分析谷奥事件,宋石男和贾葭两位老师离开新浪微博的事件分析新浪微博的是与非.

新浪微博连接 2.3

- leeking001 - 我爱水煮鱼
新浪微博连接是我使用新浪微博 API 接口开发的一个 WordPress 插件,它的主要功能是能让用户使用新浪微博账号登陆 WordPress 博客,并且可以直接使用新浪微博的头像,同步博客日志到 WordPress 博客. 经过几天的测试,新浪微博连接插件升级到 2.3,主要修正:同步博客到新浪微博的问题,并且同步内容更为丰富,规则改为:【日志标题】+ 日志内容摘要 + 日志链接.