Python爬蟲技術乾貨,教你如何實現抓取京東店鋪信息及下載圖片

什麼是Python爬蟲開發

Python爬蟲開發,從網站某一個頁面(通常是首頁)開始,讀取網頁的內容,找到在網頁中的其它鏈接地址,然後通過這些鏈接地址尋找下一個網頁,這樣一直循環下去,直到把這個網站所有的網頁都抓取完爲止。
在這裏插入圖片描述
世界上80%的爬蟲是基於Python開發的,學好爬蟲技能,可爲後續的大數據分析、挖掘、機器學習等提供重要的數據源。

Python爬蟲實例參考

這是一個用Python爬蟲實現抓取京東店鋪信息以及下載圖片的例子,僅供參考。

信息抓取:

在這裏插入圖片描述
圖片下載的:
在這裏插入圖片描述
注意:

1、在選擇信息的時候用CSS

2、用 get_text()方法篩選標籤中的文本信息

3、strip ,lstrip,rstrip 的用法:

Python中的strip 用於去除字符串的首尾字符;同理,lstrip 用於去除左邊的字符;rstrip 用於去除右邊的字符。

這三個函數其實都可以傳入一個參數,指定要去除的首尾字符。

但是需要注意的是,傳入的是一個字符數組,編譯器去除兩端所有相應的字符,直到沒有匹配的字符,比如:
在這裏插入圖片描述
theString依次被去除首尾在['s','a','y']數組內的字符,直到字符在不數組內。所以,輸出的結果爲:
在這裏插入圖片描述
比較簡單吧,lstrip和rstrip原理是一樣的。

注意:當沒有傳入參數時,是默認去除首尾空格和換行符的。
在這裏插入圖片描述
運行結果:
在這裏插入圖片描述
以上案例代碼部分以圖片形式展示,僅供參考。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章