python爬數據小試牛刀--beautifulSoup使用

python爬數據小試牛刀–beautifulSoup使用

1.環境配置

  • 編譯環境:python 2.7
  • 編譯器:pycharm
  • HTML或XML提取工具:beautifulSoup(安裝自行百度)

2.網站分析

  • 網站:鬥魚(http://www.douyu.com
  • 爬取目標:首頁的圖片
  • 步驟一:查看圖片信息,鼠標右鍵圖片,選擇檢查

  • 檢查
  • 步驟二:分析發現圖片連接都在src下面
  • 步驟三:代碼編寫
  • 導入庫
 import urllib
 from  bs4  import BeautifulSoup 
  • 獲取網頁
 import urllib
from  bs4  import BeautifulSoup
f=urllib.urlopen("http://www.douyu.com")
html =f.read()
soup = BeautifulSoup(html, 'html.parser')
  • 匹配查詢
ss=soup.find_all('img')
print ss
lenth=int(len(ss))
print lenth
for i in range(lenth):
    url =ss[i].attrs['src']
    print url
    tad=url.rfind('.')
    print tad
    if tad>0:
       str= url[tad+1:tad+4]
       if str=='png':
           print "this is png"
           urllib.urlretrieve(url, './img2/png%d.png'%i)
       elif str=='jpg':
           print 'this is jpg'
           urllib.urlretrieve(url, './img2/img%d.jpg' % i)
       elif str=='gif':
           print "this is gif"
           urllib.urlretrieve(url, './img2/gif%d.gif' % i)
       else:print "Error"

3.總結

獲取圖片的過程中,發現圖片有jpg,png,和gif,於是通過字符串操作,把格式區分開來。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章