不用代碼玩轉爬蟲實例（1） – 抓取貓眼電影信息

有很多朋友在日常的工作生活當中需要抓取網頁上的信息，進行相關的行業分析或者準備資料、報告使用。之前分享過一些關於用python抓取網頁數據的文章，可能有朋友會覺得自己不會寫代碼，或者寫代碼很費時費勁不夠方便。

其實完全不用寫代碼一樣可以玩爬蟲！

今天這篇文章開始就來陸續分享一下關於web scraper這款chrome插件的一些實例用法。關於web scraper，之前介紹了很多次了。使用它可以方便的僅僅通過鼠標進行簡單配置，就可以爬取你所想要數據。例如電影信息、電商網站商品信息、知乎回答列表、微博熱門、微博評論等等。

文章開始之前需要先安裝好web scraper，具體可以參考這篇文章：Web Scraper 使用教程（一）- 安裝

話不多說，先上實例。

假設我們需要爬取貓眼電影網站上top100的榜單

（https://maoyan.com/board/4）

爬取這100部電影的排名，電影名稱，主演，上映時間，得分。

可以看到，這100部電影是分了10個頁面進行展示的，每個頁面的網址是有規律的，

比如第2頁是

https://maoyan.com/board/4?offset=10

第3頁是

https://maoyan.com/board/4?offset=20

也就是說，這10個頁面的地址是這個樣子變化的：

https://maoyan.com/board/4?offset=[0-90:10]

其中[0-90:10]表示每次取值從0到90，間隔10取一次。第1頁取0，第2頁取10，第3頁取30，以此類推。

有了這個地址，我們就可以進行後續的操作了。

1、瀏覽器裏按F12啓動web scraper，點擊"creat new sitemap"，新建一個項目，名字可以隨意起，"start url"填寫上面找到的地址，如下圖：

2、設置"element"選擇器，點擊前兩部電影后，web scraper會自動將填好代碼，點擊"done selecting"即可，保存。

3、點擊進入剛剛創建的selector，開始配置需要爬取的電影詳細內容，方法和第二步是一樣的。例如：抓取電影的排名設置，

同樣的，電影名稱，主演，上映時間，得分依次設置好

至此，所有設置就完成了，看一下總體的結構圖：

4、啓動插件，運行即可，幾秒就就可以搞定了。

爬取的數據可以保存爲csv文件，內容如下：

如果你也想體驗一下的話，永恆君已準備好了整個sitemap文件，需要的聯繫我即可（看主頁）。

這裏說一下怎麼用，F12啓動web scraper後，點擊"create new sitemap" - "import sitemap"，然後將txt內容粘貼進去，任意取一個名稱，導入即可。

這樣就和永恆君電腦上的配置一樣了，直接點擊運行就可以看到效果了。

之前的整理的教程文章可以看這裏：

1、Web Scraper 使用教程（一）- 安裝

2、Web Scraper 使用教程（二）- 基本用法之安裝、配置、運行

3、Web Scraper 使用教程（三）- 基本用法（常用選擇器類型）

4、Web Scraper 使用教程（四）- 進階用法（同一個頁面爬取多個類型內容）

5、Web Scraper 使用教程（五）- 進階用法（爬取向下滾動加載頁面）

6、Web Scraper 使用教程（六）- 進階用法（網址有規律變化進行翻頁）

7、Web Scraper 使用教程（七）- 進階用法（點擊「翻頁器」進行翻頁）

8、Web Scraper 使用教程（八）- 進階用法（點擊「更多」進行翻頁）

9、Web Scraper 使用教程（九）- 進階用法（動態加載進行翻頁）

10、Web Scraper 使用教程（十）- 爬取二級頁面的內容

歡迎交流！

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

不用代碼玩轉爬蟲實例（1） – 抓取貓眼電影信息

linux安裝cuda和cudnn

測試人員都是畫畫大神，讓我看看誰還不會用代碼圖？

Object.values()對象遍歷

Mellanox網卡開啓SR-IOV

我拍了拍Redis，被移出了羣聊···

網絡現代化通向雲原生應用的高速公路

面試官：說說你對序列化的理解

我宣佈，這是我找到的史上AI最全論文體系！

一行代碼快速實現文件共享！

網易雲音樂，灰色歌曲也能聽！

Word居然可以這樣製作填空題，太快了！

word中這樣查找“李博”，就不會找到“李博海”啦~

這兩款文本識別工具，太好用了值得收藏！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結