- - CSDN博客综合推荐文章
代码请移步GitHub: SinaSpider. (上面有跳转链接,别再问我代码在哪里了). 此项目实现将单机的新浪微博爬虫(见 《新浪微博爬虫分享(一天可抓取 1300 万条数据)》)重构成分布式爬虫. Master机只管任务调度,不管爬数据;Slaver机只管将Request抛给Master机,需要Request的时候再从Master机拿.
- - CSDN博客推荐文章
前一篇文章" [python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等. 微博信息:包括转发或原创、点赞数、转发数、评论数、发布时间、微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩:.
- Jos - 望月的博客
在国内的门户微博中,新浪微博无疑是目前用户数量最多、媒体属性最强的,但是,最近,却连续看到一些互联网的知名人士高调宣布退出或者关闭新浪微博的博文,使用和不使用某个产品本就是个人的自由,但如此高调的宣布,并进行口诛笔伐,就值得关注了. 本文试图通过分析谷奥事件,宋石男和贾葭两位老师离开新浪微博的事件分析新浪微博的是与非.
- leeking001 - 我爱水煮鱼
新浪微博连接是我使用新浪微博 API 接口开发的一个 WordPress 插件,它的主要功能是能让用户使用新浪微博账号登陆 WordPress 博客,并且可以直接使用新浪微博的头像,同步博客日志到 WordPress 博客. 经过几天的测试,新浪微博连接插件升级到 2.3,主要修正:同步博客到新浪微博的问题,并且同步内容更为丰富,规则改为:【日志标题】+ 日志内容摘要 + 日志链接.
- suki - broom's blog
看不到follow的人之间的交互这类产品本身的问题就不提了,就说说用户行为的傻. 其中有些行为也是产品本身纵容的. 三天两头换id的,搞个巨长的id既占字数又让别人压根没法手动@的,带个公司前缀的,用流行语的. 完全没有网络时代id就是个人身份的概念,意识还停留在QQ时代,以为随便改昵称呢. 某些专门发垃圾小段子的帐号尤甚.
- - It Talks--上海魏武挥的博客
正是在这个内外交困的时刻,新浪微博展开了它的商业化之旅,前途如何,尚未可知. 近日新浪微博发布了它的第五个版本,称为“V5”,在这个版本中,一个很明显的变化是:它长的有点像Facebook,用户不仅可以设置较大的头像,也可以在顶部自定义一张大图. V5版本的一些细节做得很用心,无论是提示语,还是版式的细微之处.
- 马克叔叔 - 月光博客
Twitter是互联网短信,新浪微博以微博客Twitter式弱关系切入,正在转型SNS. 转型的挑战在于:1.如何融合弱关系和强关系. 2.如何用弱关系倒逼中国社会的强关系和潜关系. 国内有一些Twitter的拥趸,认为微博抄Twitter都抄不到点子上. “Twitter 是四两拨千斤的艺术.
- - DockOne.io
【编者的话】在不用爬虫框架的情况,经过多方学习,尝试实现了一个分布式爬虫系统,并且可以将数据保存到不同地方,类似MySQL、HBase等. 基于面向接口的编码思想来开发,因此这个系统具有一定的扩展性,有兴趣的朋友直接看一下代码,就能理解其设计思想,虽然代码目前来说很多地方还是比较紧耦合,但只要花些时间和精力,很多都是可抽取出来并且可配置化的.
- Ehaagwlke - 心弦 | blog
新浪微博上的“随手拍解救大龄女青年”出来有一段时间了,粉丝为数众多,也有了一定的社会影响力. 开始的时候我觉得这是挺好的一件事儿. 这个微博的主人不仅在微博上热心公益事业,还特意做了一个网站,把所有想要被“解救”的姑娘的信息汇总,让大家可以按照各种条件查找,然后查看她们的详细资料. 可是后来我无意中发现一个问题:这个网站在竭尽全力地获得其访问者的新浪微博账户的授权.
- 璎珞天色 - PADMAG视觉杂志
【摄影】70个闪电出现在同一张照片,拍摄于希腊Ikaria岛,来自摄影师Chris Kotsiopoulos,官方网站:http://t.cn/aNItNg. PADMAG的新浪微博:http://weibo.com/padmag,点击阅读全文可见更多内容. 【产品设计】iDroplets是一款用于iPad的透明脚贴,保护iPad与桌面接触时不至于划伤,一组售价5美元,全球包邮,官网:http://t.cn/hBCZjU ,看起来会像一颗水珠.