Python写爬虫与网页解析
Python写个简单爬虫,并作网页解析,还是非常高效的。
1. 获取HTML页面
urllib2是urllib得增强版,httplib更为底层,可以理解为urllib是对httplib的抽象。
httplib是一个相对底层的http请求模块,其上有专门的包装模块,如urllib内建模块,goto等第三方模块,但是封装的越高就越不灵活,比如urllib模块里请求错误时就不会返回结果页的内容,只有头信息,对于某些需要检测错误请求返回值的场景就不适用,所以就得用这个模块了。
httplib2,一个第三方的开源库,它比http.client更完整的实现了http协议,同时比urllib.request提供了更好的抽象。
示例,最基本的抓站,两句话就可以了:
import urllib2
content = urllib2.urlopen('http://XXXX').read()
这样可以得到整个 html 文档,关键的问题是我们可能需要从这个文档中获取我们需要的有用信息,而不是整个文档。这就需要解析充满了各种标签的 html。
2. 使用HTMLParser解析网页
HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。
HTMLParser采用的是一种事件驱动的模式,当TMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理。它
主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然
后重新定义这几个以handler_开头的函数即可。
handle_startendtag 处理开始标签和结束标签
handle_starttag
处理开始标签,比如<xx>
handle_endtag
处理结束标签,比如</xx>
handle_charref
处理特殊字符串,就是以&#开头的,一般是内码表示的字符
handle_entityref
处理一些特殊字符,以&开头的,比如
handle_data
处理数据,就是<xx>data</xx>中间的那些数据
handle_comment
处理注释
handle_decl
处理<!开头的,比如<!DOCTYPE html PUBLIC
"-//W3C//DTD HTML 4.01
Transitional//EN"
handle_pi
处理形如<?instruction>的东西
下面给一个简单的示例:
#!/usr/bin/env python
#coding=utf-8
import HTMLParser
class MyParser(HTMLParser.HTMLParser):
def
__init__(self):
HTMLParser.HTMLParser.__init__(self)
def
handle_starttag(self, tag, attrs):
if tag == 'a':
for name, value in attrs:
if name == 'href':
print value
if __name__=='__main__':
content =
'<html><body><a
href=" http://www.weibo.com"
target="_blank">WeiboSite</a></body></html>'
my =
MyParser()
my.feed(content)
3. 使用SGMLParser解析网页
SGMLParser也是Python自带的解析器,比HTMLParser更加易用。
下面给一个示例:
#!/usr/bin/env python
import urllib2
from sgmllib import SGMLParser
class ListName(SGMLParser):
def
__init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def
start_h4(self, attrs):
self.is_h4 = 1
def
end_h4(self):
self.is_h4 = ""
def
handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
content = urllib2.urlopen(' http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print
item.decode('gbk').encode('utf8')
示例很简单,这里定义了一个叫做 ListName 的类,继承 SGMLParser 里面的方法。使用一个变量 is_h4 做标记判定 html 文件中的 h4 标签,如果遇到 h4 标签,则将标签内的内容加入到 List 变量 name 中。解释一下 start_h4() 和 end_h4() 函数,他们原型是 SGMLParser 中的
start_tagname(self, attrs)
end_tagname(self)
tagname 就是标签名称,比如当遇到 <pre>,就会调用 start_pre,遇到 </pre>,就会调用 end_pre。attrs 为标签的参数,以 [(attribute, value), (attribute, value), ...] 的形式传回。
4. 使用pyQuery解析网页
pyQuery 是 jQuery 在 python 中的实现,能够以 jQuery 的语法来操作解析 HTML 文档,十分方便。使用前需要安装,easy_install pyquery 即可,或者 Ubuntu 下
sudo apt-get install python-pyquery
下面是一个示例:
from pyquery import PyQuery as pyq
doc=pyq(url=r' http://list.taobao.com/browse/cat-0.htm')
cts=doc('.market-cat')
for i in cts:
print
'====',pyq(i).find('h4').text() ,'===='
for j in
pyq(i).find('.sub'):
print pyq(j).text() ,
print
'\n'
5. 使用BeautifulSoup解析网页
有个头痛的问题是,大部分的网页都没有完全遵照标准来写,各种莫名其妙的错误令人想要找出那个写网页的人痛打一顿。为了解决这个问题,我们可以选择著名的 BeautifulSoup 来解析 html 文档,它具有很好的容错能力。BeautifulSoup功能强大,值得深入学习一下。
青春就应该这样绽放 游戏测试:三国时期谁是你最好的兄弟!! 你不得不信的星座秘密