不用寫代碼的爬蟲:用chrome瀏覽器的爬蟲插件Web Scraper爬取豆瓣動畫片電影並運用CouchDB使爬取到的數據有序

用chrome瀏覽器的爬蟲插件Web Scraper爬取豆瓣動畫片電影。

首先我們來到目標站點:https://movie.douban.com/typerank?type_name=動畫&type=25&interval_id=100:90&action= ,主要是爬取好於100%-90%的動畫片,可以看到一共有103部。往下滑動鼠標可以看到會出現更多的動畫片信息,然而我們的地址欄中的URL並沒有改變,可見其數據的加載方式是通過發送Ajax請求後獲取到的。對於這種數據加載方式,一般我們的爬蟲程序會先去找URL的發送規律,而對於爬蟲插件Web Scraper,我們只需模擬滑動鼠標,然後填寫提取規律即可。操作如下(詳細操作請前往我的網盤下載(https://pan.baidu.com/s/1u2QhilxcM_bnBxVnyuUwmA)可查看操作步驟。):
**1.**首先打開chrome瀏覽器的開發者工具,切換到Web Scraper,點擊Create new sitemap創建新項目,輸入項目名及初始網址後點擊Create sitemap,流程如下圖所示:
在這裏插入圖片描述
2點擊Add new selector按鈕創建一個元素選擇器,該選擇器主要是用來選擇包含多個數據內容的元素,其會返回每個選擇元素作爲子選擇器的母元素,b並且實現鼠標往下拖動,具體操作及填寫內容如下:
在這裏插入圖片描述
**3.**點擊movie按鈕後,點擊Add new selector按鈕創建一個子元素選擇器,分別爲標題title,排名rank,演員actor,評分score,評論數comment-num。以創建title選擇器爲例,其他選擇器只需修改爲相應的id和selector後即可,操作如下圖:
在這裏插入圖片描述
4子選擇器全創建好後,點擊Sitemap douban並選擇Scrape,最後點擊Start scraping開始爬蟲。爬取時會彈去一個窗口顯示進度,待爬蟲結束後窗口會關閉,點擊refresh即可得到數據,部分結果如下:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章