[Python爬虫]使用Selenium操作浏览器订购火车票

标签: | 发表时间:2018-03-20 20:39 | 作者:
出处:https://article.jike.ruguoapp.com

 

作者:宅必备
     一个会写Python的Oracle DBA
     个人公众号:宅必备


前文传送门:

[Python程序]利用微信企业号发送报警信息

[Python爬虫]使用Python爬取静态网页-斗鱼直播

 [Python爬虫]使用Python爬取动态网页-豆瓣电影(JSON)

 [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium)


上节我们说了如何使用selenium打开网页做些简单操作


这节内容为操作浏览器自动订购12306火车票

开发环境

操作系统:windows 10

Python版本 :3.6

爬取网页模块:selenium

分析网页工具:xpath

关于Selenium

selenium 是一个Web自动测试的工具,可以用来操作一些浏览器Driver,例如Chrome,Firefox等,也可以使用一些headless的driver,例如Phantomjs

具体请参加官网:

 http://selenium-python.readthedocs.io/

关于xpath

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

因此,对 XPath 的理解是很多高级 XML 应用的基础。

selenium可以使用xpath的形式来定位网页元素,我们可以通过开发者模式的来获取xpath路径,但是不推荐直接引用


详细教程查看如下网站

http://www.w3school.com.cn/xpath/index.asp

模块安装

 pip3 install selenium

Chrome Driver 下载

这里我们下载Chrome driver

其他的driver见官网

 http://selenium-python.readthedocs.io/installation.html#drivers

下载完成后可以放到系统环境变量中,如:

  C:\Windows\System32



https://sites.google.com/a/chromium.org/chromedriver/downloads

程序原理

代码介绍

1. import相关的模块

import selenium.webdriver

from selenium.webdriver.common.keys import Keys

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC


2. 调用Chrome

driver = selenium.webdriver.Chrome()


3. 定位用户名密码

find_element_by_id表示使用id属性进行查找input标签

username= driver.find_element_by_id('username')

password= driver.find_element_by_id('password')


4. 清除用户名密码输入框内容

username.clear()

password.clear()


5. 自动输入用户名密码

username.send_keys("username")

password.send_keys("password")


6. 判断是否登陆成功


7. 选择出发地,目的地,时间后点击查询


8. 填写需要订购的火车车次

多个车次使用列表形式,冒号后面位表格的ID属性值,不包括ticket_

tickets=['D3094:5l000D309460','G7024:51000d702454']



9.获取预定,二等座,无座的xpath

yd_path='//*[@id="ticket_'+path+'"]/td[13]/a'

edz_path='//*[@id="ticket_'+path+'"]/td[4]'

wz_path = '//*[@id="ticket_' + path + '"]/td[11]'


10. 判断是否可订购

该语句表示判断是否可点击,超时时间为10s

以及是否有票

11. 确认选座

执行结果


注意事项:

  1. 打开新的页面请使用selenium wait功能以使页面完全加载

  2. 最后提交的时候可能会需要再次输入用户名密码,输入即可

  3. 本脚本仅用于学习用途

源码位置:

源码请访问我的github主页:

https://github.com/bsbforever/spider/blob/master/selenium_12306.py



相关 [python 爬虫 selenium] 推荐:

[Python爬虫]使用Selenium操作浏览器订购火车票

- -
     一个会写Python的Oracle DBA. [Python程序]利用微信企业号发送报警信息. [Python爬虫]使用Python爬取静态网页-斗鱼直播.  [Python爬虫]使用Python爬取动态网页-豆瓣电影(JSON).  [Python爬虫]使用Python爬取动态网页-腾讯动漫(Selenium).

[python爬虫] Selenium常见元素定位方法和操作的学习介绍

- - CSDN博客编程语言推荐文章
        这篇文章主要Selenium+Python自动测试或爬虫中的常见定位方法、鼠标操作、键盘操作介绍,希望该篇基础性文章对你有所帮助,如果有错误或不足之处,请海涵~.         前文目录:.          [Python爬虫] 在Windows下安装PhantomJS和CasperJS及入门介绍(上).

[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)

- - CSDN博客推荐文章
前一篇文章" [python爬虫] Selenium爬取新浪微博内容及用户信息"简单讲述了如何爬取新浪微博手机端用户信息和微博信息. 用户信息:包括用户ID、用户名、微博数、粉丝数、关注数等. 微博信息:包括转发或原创、点赞数、转发数、评论数、发布时间、微博内容等. 它主要通过从文本txt中读取用户id,通过"URL+用户ID" 访问个人网站,如柳岩:.

最全Python爬虫总结

- - CSDN博客综合推荐文章
最近总是要爬取一些东西,索性就把Python爬虫的相关内容都总结起来了,自己多动手还是好. (2)保存爬取的图片/视频和文件和网页. (7)某个网站的站内所有目录爬虫. (9)爬虫框架Scrapy   . 二,保存爬取的图片/视频和文件和网页. #图片/视频和文件和网页的地址抓取下来后,利用模块urllib里的urlretrieve()方法下载下来:.

Python写爬虫与网页解析

- - 互联网实践
Python写个简单爬虫,并作网页解析,还是非常高效的. urllib2是urllib得增强版,httplib更为底层,可以理解为urllib是对httplib的抽象. httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第三方模块,但是封装的越高就越不灵活,比如urllib模块里请求错误时就不会返回结果页的内容,只有头信息,对于某些需要检测错误请求返回值的场景就不适用,所以就得用这个模块了.

python爬虫实践之网页抓取

- - CSDN博客推荐文章
python自带了urllib和urllib2模块,以及第三方的requests库来抓取网页,这里我们使用easy_install包管理工具下载requests库,BeautifulSoup库,在CMD命令行下,切换到easy_install的目录,运行命令easy_install 包名称. 安装好requests包之后,我们就可以选择使用urllib,urllib2或requests库来抓取网页了.

开源Python网络爬虫框架Scrapy

- - 互联网实践
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据. 不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了. 一般的方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬虫的抓取队列中,然后进入到新新页面后再递归的进行上述的操作,其实说来就跟深度遍历或广度遍历一样.

[原][python]书籍信息爬虫示例

- - moxiaomomo的专栏
[python]书籍信息爬虫示例. 需要收集一些书籍信息,以豆瓣书籍条目作为源,得到一些有效书籍信息,并保存到本地数据库. 具体可参考这个链接:. 然后将这些分类标签链接存到本地某个文件,存储内容如下. 获取书籍信息,并保存本地数据库. 假设已经建好mysql表,如下:. 并已实现相关爬虫逻辑,主要用到了BeautifulSoup包,如下:.

基于 Python 的 Scrapy 爬虫入门:代码详解

- - SegmentFault 最新的文章
接下来创建一个爬虫项目,以 图虫网 为例抓取里面的图片. 在顶部菜单“发现” “标签”里面是对各种图片的分类,点击一个标签,比如“美女”,网页的链接为: https://tuchong.com/tags/美女/,我们以此作为爬虫入口,分析一下该页面:. 打开页面后出现一个个的图集,点击图集可全屏浏览图片,向下滚动页面会出现更多的图集,没有页码翻页的设置.

python使用beutifulsoup来爬虫的基本套路

- - jackyrong
使用python3,比如爬kugo的榜单:.   在上面的代码中 from bs4 import BeautifulSoup首先导入;. 然后   soup = BeautifulSoup(wb_data.text,'lxml') 中,调用BeautifulSoup,. 这些,XPATH用CHROME浏览器的检查功能,查看下就可以了;.