Python爬蟲的基本流程是怎樣的？技術實現是什麼？帶你簡單入門一下爬蟲

原創

2020-03-03 15:51

對於網絡爬蟲技術的學習，其他教學很少有從整體結構來說的，多數是直接放出某部分代碼。這樣的方法會使初學者摸不着頭腦：就好像是盲人摸象，有人摸到的是象腿，以爲是一根大柱子；有人摸到的是大象耳朵，以爲是一把大蒲扇等。

本篇講解的目的，是讓大家先對爬蟲概念有個比較深入的認識。

所謂爬蟲，就是請求網站並提取自己所需要數據的過程。

通過我們的程序，可以代替我們向服務器發送請求，然後進行批量的數據下載。

網絡爬蟲的流程其實非常簡單，主要可以分爲三部分：（1）獲取網頁；（2）解析網頁（提取數據）；（3）存儲數據。

（1）獲取網頁就是給一個網址發送請求，該網址會返回整個網頁的數據。類似於在瀏覽器中鍵入網址並按回車鍵，然後可以看到網站的整個頁面。

（2）解析網頁就是從整個網頁的數據中提取想要的數據。類似於你在頁面中想找到產品的價格，價格就是你要提取的數據。

（3）存儲數據也很容易理解，就是把數據存儲下來。我們可以存儲在csv中，也可以存儲在數據庫中。

三、技術實現

下面列出三個流程的技術實現，括號裏是對應的章節。

1.獲取網頁

獲取網頁的基礎技術：requests、urllib和selenium。

獲取網頁的進階技術：多進程多線程抓取、登錄抓取、突破IP封禁和使用服務器抓取。

2.解析網頁

解析網頁的基礎技術：re正則表達式、BeautifulSoup和lxml。

解析網頁的進階技術：解決中文亂碼。

3.存儲數據

存儲數據的基礎技術：存入txt文件和存入csv文件。
存儲數據的進階技術：存入MySQL數據庫和MongoDB數據庫。

更多精彩，請關注我的"今日頭條號"：Java雲筆記
隨時隨地，讓你擁有最新，最便捷的掌上雲服務

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.