基於Chrome的Easy Scraper插件抓取網頁

背景 

     爬蟲程序,又稱爲網絡爬蟲或爬蟲(spider),是一種自動化程序,主要用於向網站或網絡發起請求,獲取資源後分析並提取有用數據。從技術層面來看,爬蟲程序通過模擬瀏覽器請求站點的行爲,把站點返回的HTML代碼、JSON數據、二進制數據(如圖片、視頻)爬取到本地,進而提取並存儲自己需要的數據。

     爬蟲程序的工作原理主要包括以下幾個步驟:

1. 網頁請求:爬蟲首先需要確定要爬取的目標網址,並選擇合適的請求方法(如GET或POST)。爬蟲還可以設置請求頭部信息,模擬瀏覽器的請求,以避免被網站的反爬蟲機制攔截。一旦發送了請求,爬蟲就會等待服務器的響應,獲取網頁的內容。
2. 數據解析:爬蟲獲取到網頁內容後,需要對這些內容進行解析。網頁通常是使用HTML、XML或JSON等標記語言編寫的,爬蟲需要根據網頁的結構和規則,提取出需要的數據。爬蟲還可以使用正則表達式來匹配和提取特定的數據。在解析網頁的過程中,爬蟲還可以進行數據清洗和處理,以獲取更加乾淨和規範的數據。
3. 數據存儲:爬蟲將解析後的數據進行存儲,可以存放在數據庫或文件中,以便後續使用和分析。

      爬蟲程序的應用非常廣泛,例如:

1. 獲取網頁源代碼,便於進行進一步的分析和處理。
2. 對數據進行篩選和提取,獲取有用的信息,如商品價格、新聞內容等。
3. 保存數據,將爬取到的數據存儲起來,供後續使用或分析。
4. 進行數據分析和調研,通過對爬取到的數據進行統計和分析,可以瞭解市場趨勢、用戶行爲等信息。

     需要注意的是,爬蟲程序的使用需要遵守相關法律法規和網站的robots協議,不得進行惡意爬取或侵犯他人權益的行爲。同時,對於大型網站或需要頻繁爬取的場景,還需要考慮如何避免對網站造成過大的負擔,以及如何處理反爬蟲機制等問題。

實踐

       1. 抓取列表

        我們今天實踐一個基於Chrome的Easy Scraper爬蟲插件,先抓取列表

image

下載的JSON如下,CSV類似

    image

2. 抓取詳情頁

    先把收集的URL列表,存儲爲csv

image

    上傳

image

   下一步有一個預覽可視化抓取區域

image

  


   第三階段就可以開始抓取了

  image

抓取結果40個URL, 1分:25秒

   image

   包含中文的csv文件,需要手動轉換 UTF-8 BOM格式,EXCEL打開效果。

image

總結

        總體操作比較方便,相比寫程序抓取省不時間。抓取速度較慢,但剛纔符合網站防止爬取的特性。更多參考



今天先到這兒,希望對雲原生,技術領導力, 企業管理,系統架構設計與評估,團隊管理, 項目管理, 產品管管,團隊建設 有參考作用 , 您可能感興趣的文章:
領導人怎樣帶領好團隊
構建創業公司突擊小團隊
國際化環境下系統架構演化
微服務架構設計
視頻直播平臺的系統架構演化
微服務與Docker介紹
Docker與CI持續集成/CD
互聯網電商購物車架構演變案例
互聯網業務場景下消息隊列架構
互聯網高效研發團隊管理演進之一
消息系統架構設計演進
互聯網電商搜索架構演化之一
企業信息化與軟件工程的迷思
企業項目化管理介紹
軟件項目成功之要素
人際溝通風格介紹一
精益IT組織與分享式領導
學習型組織與企業
企業創新文化與等級觀念
組織目標與個人目標
初創公司人才招聘與管理
人才公司環境與企業文化
企業文化、團隊文化與知識共享
高效能的團隊建設
項目管理溝通計劃
構建高效的研發與自動化運維
某大型電商雲平臺實踐
互聯網數據庫架構設計思路
IT基礎架構規劃方案一(網絡系統規劃)
餐飲行業解決方案之客戶分析流程
餐飲行業解決方案之採購戰略制定與實施流程
餐飲行業解決方案之業務設計流程
供應鏈需求調研CheckList
企業應用之性能實時度量系統演變

如有想了解更多軟件設計與架構, 系統IT,企業信息化, 團隊管理 資訊,請關注我的微信訂閱號:

image_thumb2_thumb_thumb

作者:Petter Liu
出處:http://www.cnblogs.com/wintersun/
本文版權歸作者和博客園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責任的權利。 該文章也同時發佈在我的獨立博客中-Petter Liu Blog。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章