Python +mysql 简易爬虫给新浪大 V 微博和文章做备份

标签: python mysql 简易 | 发表时间:2018-07-02 23:42 | 作者:hubqin
出处:https://www.v2ex.com/

写了个爬虫定期抓取新浪指定用户的微博和文章,以防哪天失联了还能看备份。 GitHub: https://github.com/HubQin/sinaCrawlerV

各文件功能:

使用:

  • 创建数据表:运行 sina.sql 创建数据表
  • 完善 config.py 的参数,抓取微博使用移动端的请求链接;抓取文章需要登录,这里手动登录后,查看移动端的异步请求,复制 Request Header 里面的 cookie 出来使用
  • 命令行终端 cd 到 py 文件所在目录,运行 pyhton.pyarticle.py ,或修改 auto.bat 文件的 cd 路径,双击改文件开始抓取

相关 [python mysql 简易] 推荐:

Python +mysql 简易爬虫给新浪大 V 微博和文章做备份

- - V2EX - 技术
写了个爬虫定期抓取新浪指定用户的微博和文章,以防哪天失联了还能看备份. database.py 封装了各种 mysql 操作. post.py 抓取微博,每次抓取到上次抓取的时间为止. article.py 抓取文章,同上. gadget.py 用到的各种小工具. config.py 需要用到的参数.

简易的python web服务器用途

- Ruby - Erlang非业余研究
原创文章,转载请注明: 转载自Erlang非业余研究. 本文链接地址: 简易的python web服务器用途. 我们在工作中经常会需要看下报表,如tsung的统计报表或者lcov的覆盖情况,这些报表通常为了方便都会作成html格式的. 我们可以把这些html网页打包拉回去用浏览器慢慢看,但是每次都要打包,拉数据非常麻烦.

记项目 Python-MySQL 访问类的优化

- litefy - python.cn(jobs, news)
接手一些Python项目的后续开发与维护,发现这些项目都用同一个数据库访问类,而生成的结果行竟然是用list存的,一个简单的row['id']访问需要遍历整行去找,遂优化之. 一般访问数据行的字段都是使用字段名访问,显然应该使用dict. 但也有可能使用数字下标访问,例如对于select count(*)的结果集,可能就使用rs[0][0]访问了.

快速熟悉python 下使用mysql(MySQLdb) - mrbean

- - 博客园_首页
首先你需要安装上mysql和MySQLdb模块(当然还有其他模块可以用),这里我就略过了,如果遇到问题自行百度(或者评论在下面我可以帮忙看看). 这里简单记录一下自己使用的学习过程:.   MySQLdb提供了connect函数,使用如下.    这里的参数的意义都是很明确的,但是这些参数并不是都是必须的:.

Windows下Apache+PHP+MySQL简易配置教程

- - 蓝飞技术部落格
首先自然是下载软件,然后该解压的解压(注意要非中文目录,这里的软件目录以均以 C:\Program Files为例),该安装的安装(MySQL的安装会有许多选项,英文好的看着按自己需要勾勾填填就行了,实在不行的参考 这里,这里的版本比较旧,不过配置选项大致还是差不多的). Apache: httpd-2.4.3-win32.zip( 更多版本).

dropbox讲python

- chuang - Initiative
dropbox定制优化CPython虚拟机,自己搞了个malloc调度算法. 那个 !!!111cos(0). 期待这次PyCon China 2011.

Python调试

- - 企业架构 - ITeye博客
原文地址: http://blog.csdn.net/xuyuefei1988/article/details/19399137. 1、下面网上收罗的资料初学者应该够用了,但对比IBM的Python 代码调试技巧:. IBM:包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试:.

Python WSGI 初探

- - 坚实的幻想
在构建 Web 应用时,通常会有 Web Server 和 Application Server 两种角色. 其中 Web Server 主要负责接受来自用户的请求,解析 HTTP 协议,并将请求转发给 Application Server,Application Server 主要负责处理用户的请求,并将处理的结果返回给 Web Server,最终 Web Server 将结果返回给用户.

Python实现逻辑回归(Logistic Regression in Python)

- - 神刀安全网
Logistic Regression in Python ,作了中文翻译,并相应补充了一些内容. 本文并不研究逻辑回归具体算法实现,而是使用了一些算法库,旨在帮助需要用Python来做逻辑回归的训练和预测的读者快速上手. 逻辑回归是一项可用于预测二分类结果(binary outcome)的统计技术,广泛应用于金融、医学、犯罪学和其他社会科学中.

python 下载文件

- Eric - python相关的python 教程和python 下载你可以在老王python里寻觅
之前给大家分享的python 多线程抓取网页,我觉的大家看了以后,应该会对python 抓取网页有个很好的认识,不过这个只能用python 来抓取到网页的源代码,如果你想用做python 下载文件的话,上面的可能就不适合你了,最近我在用python 做文件下载的时候就遇到这个问题了,不过最终得以解决,为了让大家以后碰过这个问题有更好的解决办法,我把代码发出来:.