有很多朋友在日常的工作生活當中需要抓取網頁上的信息,進行相關的行業分析或者準備資料、報告使用。之前分享過一些關於用python抓取網頁數據的文章,可能有朋友會覺得自己不會寫代碼,或者寫代碼很費時費勁不夠方便。
其實完全不用寫代碼一樣可以玩爬蟲!
今天這篇文章開始就來陸續分享一下關於web scraper這款chrome插件的一些實例用法。關於web scraper,之前介紹了很多次了。使用它可以方便的僅僅通過鼠標進行簡單配置,就可以爬取你所想要數據。例如電影信息、電商網站商品信息、知乎回答列表、微博熱門、微博評論等等。
文章開始之前需要先安裝好web scraper,具體可以參考這篇文章:Web Scraper 使用教程(一)- 安裝
話不多說,先上實例。
假設我們需要爬取貓眼電影網站上top100的榜單
(https://maoyan.com/board/4)
爬取這100部電影的排名,電影名稱,主演,上映時間,得分。
可以看到,這100部電影是分了10個頁面進行展示的,每個頁面的網址是有規律的,
比如第2頁是
https://maoyan.com/board/4?offset=10
第3頁是
https://maoyan.com/board/4?offset=20
也就是說,這10個頁面的地址是這個樣子變化的:
https://maoyan.com/board/4?offset=[0-90:10]
其中[0-90:10]表示每次取值從0到90,間隔10取一次。第1頁取0,第2頁取10,第3頁取30,以此類推。
有了這個地址,我們就可以進行後續的操作了。
1、瀏覽器裏按F12啓動web scraper,點擊"creat new sitemap",新建一個項目,名字可以隨意起,"start url"填寫上面找到的地址,如下圖:
2、設置"element"選擇器,點擊前兩部電影后,web scraper會自動將填好代碼,點擊"done selecting"即可,保存。
3、點擊進入剛剛創建的selector,開始配置需要爬取的電影詳細內容,方法和第二步是一樣的。例如:抓取電影的排名設置,
同樣的,電影名稱,主演,上映時間,得分依次設置好
至此,所有設置就完成了,看一下總體的結構圖:
4、啓動插件,運行即可,幾秒就就可以搞定了。
爬取的數據可以保存爲csv文件,內容如下:
如果你也想體驗一下的話,永恆君已準備好了整個sitemap文件,需要的聯繫我即可(看主頁)。
這裏說一下怎麼用,F12啓動web scraper後,點擊"create new sitemap" - "import sitemap",然後將txt內容粘貼進去,任意取一個名稱,導入即可。
這樣就和永恆君電腦上的配置一樣了,直接點擊運行就可以看到效果了。
之前的整理的教程文章可以看這裏:
2、Web Scraper 使用教程(二)- 基本用法之安裝、配置、運行
3、Web Scraper 使用教程(三)- 基本用法(常用選擇器類型)
4、Web Scraper 使用教程(四)- 進階用法(同一個頁面爬取多個類型內容)
5、Web Scraper 使用教程(五)- 進階用法(爬取向下滾動加載頁面)
6、Web Scraper 使用教程(六)- 進階用法(網址有規律變化進行翻頁)
7、Web Scraper 使用教程(七)- 進階用法(點擊「翻頁器」進行翻頁)
8、Web Scraper 使用教程(八)- 進階用法(點擊「更多」進行翻頁)
9、Web Scraper 使用教程(九)- 進階用法(動態加載進行翻頁)
10、Web Scraper 使用教程(十)- 爬取二級頁面的內容
歡迎交流!