拜讀《python練習手冊》之爬日本美女圖圖片,個人有一點體會:
在對網頁打開時,有三種方式;
- 列表內容
import re,urllib,os
url="http://tieba.baidu.com/p/2166231880"
find=re.compile(r'<img pic_type="0" class="BDE_Image" src="(.*?).jpg"')
data=urllib.urlopen(url).read()
picture_url_list=find.findall(data.decode('utf-8'))
2.直接導入requests,通過get(url)獲得網頁
import requests,urllib,os
url="http://tieba.baidu.com/p/2166231880"
find=re.compile(r'<img pic_type="0" class="BDE_Image" src="(.*?).jpg"')
html=requests.get(url)
data=html.content.decode('utf-8')
picture_url_list=find.findall(data)#對改url需要加上圖片的後綴名“.jpg”
3.通過urllib中的Request請求創建一個Request對象
import re,urllib,os
url="http://tieba.baidu.com/p/2166231880"
find=re.compile(r'<img pic_type="0" class="BDE_Image" src="(.*?).jpg"')
req=urllib.Request(url)
response = urllib2.urlopen(req)
the_page = response.read()
注意
在對網站爬蟲的過程中注意編碼的改寫,一般來說“utf-8”和“GBK”爲常用解碼類型