微博爬虫“免登录”技巧详解及Java实现

- - SegmentFault 最新的文章

本文源地址： http://www.fullstackyang.com/...，转发请注明该地址或segmentfault地址，谢谢. 一、微博一定要登录才能抓取. 目前，对于微博的爬虫，大部分是基于模拟微博账号登录的方式实现的，这种方式如果真的运营起来，实际上是一件非常头疼痛苦的事，你可能每天都过得提心吊胆，生怕新浪爸爸把你的那些账号给封了，而且现在随着实名制的落地，获得账号的渠道估计也会变得越来越少.

新浪微博分布式爬虫分享

- - CSDN博客综合推荐文章

代码请移步GitHub： SinaSpider. （上面有跳转链接，别再问我代码在哪里了）. 此项目实现将单机的新浪微博爬虫（见《新浪微博爬虫分享（一天可抓取 1300 万条数据）》）重构成分布式爬虫. Master机只管任务调度，不管爬数据；Slaver机只管将Request抛给Master机，需要Request的时候再从Master机拿.

Python +mysql 简易爬虫给新浪大 V 微博和文章做备份

- - V2EX - 技术

写了个爬虫定期抓取新浪指定用户的微博和文章,以防哪天失联了还能看备份. database.py 封装了各种 mysql 操作. post.py 抓取微博，每次抓取到上次抓取的时间为止. article.py 抓取文章，同上. gadget.py 用到的各种小工具. config.py 需要用到的参数.

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

- - CSDN博客推荐文章

前一篇文章" [python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息：包括用户ID、用户名、微博数、粉丝数、关注数等. 微博信息：包括转发或原创、点赞数、转发数、评论数、发布时间、微博内容等. 它主要通过从文本txt中读取用户id，通过"URL+用户ID" 访问个人网站，如柳岩：.

HttpClient 模拟登录Web版新浪微博

- - zzm

其中密码部分进行了加密，加密的算法在网页的js文件里，网上有人把它改成了Java代码. 下面是SinaSSoEncoder类：. 转：http://www.cnblogs.com/e241138/archive/2012/09/16/2687124.html. 已有 0 人发表留言，猛击->> 这里<<-参与讨论.

HttpClient 模拟登录手机版新浪微博

- - zzm

我们要做的就是获取服务器需要的数据，然后用HttpClient模拟浏览器提交. go标签内的href是我们第二次请求的地址，通过这个地址来获取cookie. 用户密码那个field的name属性是随机变化的，需要先获取它然后提交. 思路：先获取表单的值，然后用POST方法提交. 注意添加RequestHeader信息，否则会被服务器拒绝（403）.

网络爬虫

- - 四火的唠叨

文章系本人原创，转载请保持完整性并注明出自《四火的唠叨》. 最近在写一个程序，去爬热门事件和热门关键词网站上的数据. 网络爬虫也叫做网络蜘蛛，是一种互联网机器人，把需要的网页撷取下来，组织成适当格式存储. 它是搜索引擎的重要组成部分，虽然从技术实现上来说，它的难度往往要小于对于得到的网页信息的处理.

新浪微博注册用户超3亿 60%通过移动终端登录

- - TechWeb 今日焦点 RSS阅读

新浪微博注册用户数已超3亿. 　　【TechWeb报道】5月10日消息，第四届GMIC全球移动互联网大会在北京召开，新浪微博举办了主题为“连接成长开放共赢”的开发者专场论坛. 新浪微博事业部副总经理芦义在论坛上介绍，新浪微博注册用户已超过3亿，其中60%的活跃用户通过移动终端登录新浪微博. 　　芦义分享了新浪微博的如下数据：.

Google 图片爬虫

- - 吴良超的学习笔记

这里的 Google 图片爬虫指的是爬取在 Google 上通过关键词搜索得到的图片，由于最近需要一些特定领域的图片，而且现有的数据库满足不了要求，因此就想通过 Google 搜索筛选出这些特定领域的图片，然后下载下来后再进行人工筛选. 这里采用了两种方法，区别在于是否需要解析网页端的 JS 代码.

首款黑莓版腾讯微博客户端发布支持多帐号登录

- 洞箫 - cnBeta.COM

首款专为BlackBerry平台用户打造的腾讯微博手机客户端――腾讯微博1.0.0(BlackBerry)尝鲜版正式发布，沿袭黑莓传统，为您带来独有的移动沟通体验. 随时随地让您与志趣相投的好友共同获取资讯、记录生活中的点点滴滴. 低调的BBer骚动起来，快去下载体验吧.

微博爬虫“免登录”技巧详解及Java实现

一、微博一定要登录才能抓取？

二、准备工作

三、抽丝剥茧

四、代码实现

相关 [微博爬虫登录] 推荐：