從零開始開發python和qt項目(二)

項目的重要部分在於爬蟲的書寫,我找了一天的網站,想確定一個作爲爬蟲目標,新聞小說糗百,最後定了壁紙網站,反正是學習,這個無所謂啦。

只所以有Spider2.py的存在,是因爲Spider.py爬的是國外壁紙網站,慢的要死

聲明:本次爬取,只是學習,不要用這個惡意攻擊網站,我不負責哦

1.分析網站結構 http://www.netbian.com/index_2.htm

我用的谷歌瀏覽器,F12,打開調試,
翻幾次下一頁,比較連接地址,發現規律,
第2頁 /index_2.htm
第3頁 /index_3.htm

0_1524059692791_TIM截圖20180418215336.png

2.爬取網頁數據

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    'Cookie': '__cfduid=d252e3981db5eb8f693b010f5dfd5ddd01524029979; _ga=GA1.2.1939131297.1524029968; _gid=GA1.2.1452726850.1524029968; wallhaven_session=eyJpdiI6Ik1NU0F1S1hBZGIzUWxQd083b05lMGdnKzBqbFwvaEZnNWx6aXBWczlydE5nPSIsInZhbHVlIjoiOG4rMGlVcHNsQ3ZIY3FDOXRncjR5VnF1RVwvak9WSmR4SzhKTms0TzdCQTFrXC9TZTFEQXBYbmlybnRHd2dyRDdvVmZUck9MSnFmdkprNmxONmVzUXpjZz09IiwibWFjIjoiMGZhOTYyYmViOGNlOGZiMjkyOTRkMWIxOThjYmE5MTFiMWJmODM4NTdjMjc0MjNiZGMzNWVkYmQ1NzRmNjI0OCJ9'
}

url = 'http://www.netbian.com/index_%s.htm' % str(currentPage)
html = get_one_page(url, headers=headers)

Cookie來自上面截圖內容,get_one_page函數裏用requests,get到網頁數據
訪問網頁的方式分get和post,put不常用
get就是直接獲取,如果傳參是明文方式
post傳參是密文方式
萌新知道這些就足夠了

0_1524059924801_TIM截圖20180418215834.png

3.得到網頁全部數據後,還要從裏面提取圖片數據

觀察網頁發現圖片存在 【list】,這個下面

0_1524060210665_225.png

0_1524060186008_TIM截圖20180418220253.png

我用BeautifulSoup(如果沒有lxml需要自己安裝哦)解析了網頁數據,提取list內容,然後用re正則篩選出這一頁所有圖片鏈接,一個鏈接如下

http://img.netbian.com/file/2018/0413/8e97d70b7991a190f9f1c2be91c38da7.jpg

4.有了圖片鏈接,接下來就是下載圖片

0_1524060491629_TIM截圖20180418220745.png

所有緩存的縮略圖我放在cache文件夾下

0_1524060561738_TIM截圖20180418220913.png

未完待續

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章