從零開始開發python和qt項目（二）

原創

chen_227

2020-07-06 17:18

項目的重要部分在於爬蟲的書寫，我找了一天的網站，想確定一個作爲爬蟲目標，新聞小說糗百，最後定了壁紙網站，反正是學習，這個無所謂啦。

只所以有Spider2.py的存在，是因爲Spider.py爬的是國外壁紙網站，慢的要死

聲明：本次爬取，只是學習，不要用這個惡意攻擊網站，我不負責哦

1.分析網站結構 http://www.netbian.com/index_2.htm

我用的谷歌瀏覽器，F12，打開調試，
翻幾次下一頁，比較連接地址，發現規律，
第2頁 /index_2.htm
第3頁 /index_3.htm

2.爬取網頁數據

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36',
    'Cookie': '__cfduid=d252e3981db5eb8f693b010f5dfd5ddd01524029979; _ga=GA1.2.1939131297.1524029968; _gid=GA1.2.1452726850.1524029968; wallhaven_session=eyJpdiI6Ik1NU0F1S1hBZGIzUWxQd083b05lMGdnKzBqbFwvaEZnNWx6aXBWczlydE5nPSIsInZhbHVlIjoiOG4rMGlVcHNsQ3ZIY3FDOXRncjR5VnF1RVwvak9WSmR4SzhKTms0TzdCQTFrXC9TZTFEQXBYbmlybnRHd2dyRDdvVmZUck9MSnFmdkprNmxONmVzUXpjZz09IiwibWFjIjoiMGZhOTYyYmViOGNlOGZiMjkyOTRkMWIxOThjYmE5MTFiMWJmODM4NTdjMjc0MjNiZGMzNWVkYmQ1NzRmNjI0OCJ9'
}

url = 'http://www.netbian.com/index_%s.htm' % str(currentPage)
html = get_one_page(url, headers=headers)

Cookie來自上面截圖內容，get_one_page函數裏用requests，get到網頁數據
訪問網頁的方式分get和post，put不常用
get就是直接獲取，如果傳參是明文方式
post傳參是密文方式
萌新知道這些就足夠了

3.得到網頁全部數據後，還要從裏面提取圖片數據

觀察網頁發現圖片存在【list】，這個下面

我用BeautifulSoup（如果沒有lxml需要自己安裝哦）解析了網頁數據，提取list內容，然後用re正則篩選出這一頁所有圖片鏈接，一個鏈接如下

http://img.netbian.com/file/2018/0413/8e97d70b7991a190f9f1c2be91c38da7.jpg

4.有了圖片鏈接，接下來就是下載圖片

所有緩存的縮略圖我放在cache文件夾下

未完待續

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

從零開始開發python和qt項目（二）

qt開發動態桌面

使用Sublime Text3開發qt程序

qt製作爬蟲，爬取git代碼

官方例子-kriacluster3ddemo 第二章

小遊戲合集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結