不用代碼玩轉爬蟲實例(1) – 抓取貓眼電影信息

有很多朋友在日常的工作生活當中需要抓取網頁上的信息,進行相關的行業分析或者準備資料、報告使用。之前分享過一些關於用python抓取網頁數據的文章,可能有朋友會覺得自己不會寫代碼,或者寫代碼很費時費勁不夠方便。

其實完全不用寫代碼一樣可以玩爬蟲!

今天這篇文章開始就來陸續分享一下關於web scraper這款chrome插件的一些實例用法。關於web scraper,之前介紹了很多次了。使用它可以方便的僅僅通過鼠標進行簡單配置,就可以爬取你所想要數據。例如電影信息、電商網站商品信息、知乎回答列表、微博熱門、微博評論等等。

文章開始之前需要先安裝好web scraper,具體可以參考這篇文章:Web Scraper 使用教程(一)- 安裝

話不多說,先上實例。

假設我們需要爬取貓眼電影網站上top100的榜單

(https://maoyan.com/board/4)

爬取這100部電影的排名,電影名稱,主演,上映時間,得分。

可以看到,這100部電影是分了10個頁面進行展示的,每個頁面的網址是有規律的,

比如第2頁是

https://maoyan.com/board/4?offset=10

第3頁是

https://maoyan.com/board/4?offset=20

也就是說,這10個頁面的地址是這個樣子變化的:

https://maoyan.com/board/4?offset=[0-90:10]

其中[0-90:10]表示每次取值從0到90,間隔10取一次。第1頁取0,第2頁取10,第3頁取30,以此類推。

有了這個地址,我們就可以進行後續的操作了。

1、瀏覽器裏按F12啓動web scraper,點擊"creat new sitemap",新建一個項目,名字可以隨意起,"start url"填寫上面找到的地址,如下圖:

2、設置"element"選擇器,點擊前兩部電影后,web scraper會自動將填好代碼,點擊"done selecting"即可,保存。

3、點擊進入剛剛創建的selector,開始配置需要爬取的電影詳細內容,方法和第二步是一樣的。例如:抓取電影的排名設置,

同樣的,電影名稱,主演,上映時間,得分依次設置好

至此,所有設置就完成了,看一下總體的結構圖:

4、啓動插件,運行即可,幾秒就就可以搞定了。

爬取的數據可以保存爲csv文件,內容如下:

如果你也想體驗一下的話,永恆君已準備好了整個sitemap文件,需要的聯繫我即可(看主頁)。

這裏說一下怎麼用,F12啓動web scraper後,點擊"create new sitemap" - "import sitemap",然後將txt內容粘貼進去,任意取一個名稱,導入即可。

這樣就和永恆君電腦上的配置一樣了,直接點擊運行就可以看到效果了。

之前的整理的教程文章可以看這裏:

1、Web Scraper 使用教程(一)- 安裝

2、Web Scraper 使用教程(二)- 基本用法之安裝、配置、運行

3、Web Scraper 使用教程(三)- 基本用法(常用選擇器類型)

4、Web Scraper 使用教程(四)- 進階用法(同一個頁面爬取多個類型內容)

5、Web Scraper 使用教程(五)- 進階用法(爬取向下滾動加載頁面)

6、Web Scraper 使用教程(六)- 進階用法(網址有規律變化進行翻頁)

7、Web Scraper 使用教程(七)- 進階用法(點擊「翻頁器」進行翻頁)

8、Web Scraper 使用教程(八)- 進階用法(點擊「更多」進行翻頁)

9、Web Scraper 使用教程(九)- 進階用法(動態加載進行翻頁)

10、Web Scraper 使用教程(十)- 爬取二級頁面的內容

歡迎交流!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章