python爬數據小試牛刀–beautifulSoup使用
1.環境配置
- 編譯環境:python 2.7
- 編譯器:pycharm
- HTML或XML提取工具:beautifulSoup(安裝自行百度)
2.網站分析
- 網站:鬥魚(http://www.douyu.com)
- 爬取目標:首頁的圖片
- 步驟一:查看圖片信息,鼠標右鍵圖片,選擇檢查
-
- 步驟二:分析發現圖片連接都在src下面
- 步驟三:代碼編寫
- 導入庫
import urllib
from bs4 import BeautifulSoup
- 獲取網頁
import urllib
from bs4 import BeautifulSoup
f=urllib.urlopen("http://www.douyu.com")
html =f.read()
soup = BeautifulSoup(html, 'html.parser')
- 匹配查詢
ss=soup.find_all('img')
print ss
lenth=int(len(ss))
print lenth
for i in range(lenth):
url =ss[i].attrs['src']
print url
tad=url.rfind('.')
print tad
if tad>0:
str= url[tad+1:tad+4]
if str=='png':
print "this is png"
urllib.urlretrieve(url, './img2/png%d.png'%i)
elif str=='jpg':
print 'this is jpg'
urllib.urlretrieve(url, './img2/img%d.jpg' % i)
elif str=='gif':
print "this is gif"
urllib.urlretrieve(url, './img2/gif%d.gif' % i)
else:print "Error"
3.總結
獲取圖片的過程中,發現圖片有jpg,png,和gif,於是通過字符串操作,把格式區分開來。