Python爬蟲之爬蟲原理(2)

爬蟲的基本流程

發起請求

向目標站點發起一個http請求,請求的信息我們可以自己指定,然後等待服務器響應

獲取響應內容

如果服務器正常響應,會得到一個reponse,它裏面的內容就是服務器返回的頁面內容,類型可能是html,json字符串,二進制信息等類型

解析內容

若得到的內容是html,則可以用正則表達式和頁面解析庫(如BeautifulSoup)進行解析,若是json,可以直接轉換爲json對象進行解析,若爲二進制數據,則可以保存或者進一步處理

保存數據

保存數據可以保存到文本,也可以保存到數據庫(需要用到相關數據庫的庫)和Excel(用到xlwt庫)

 

什麼是Request,Response

request:瀏覽器發送消息給網址所在的服務器

response:服務器收到消息後,能夠根據收到的消息,做相應的處理,然後把消息傳送給瀏覽器,這個過程就是HTTP Response

瀏覽器收到response後,對其進行相應的處理,然後將信息呈現給用戶

 

Request中包含什麼?

請求方式

主要有:GET/POST兩種類型常用,另外還有HEAD/PUT/DELETE/OPTIONS
GET和POST的區別就是:請求的數據GET是在url中,POST則是存放在頭部

  • GET:向指定的資源發出“顯示”請求。使用GET方法應該只用在讀取數據,而不應當被用於產生“副作用”的操作中,例如在Web Application中。其中一個原因是GET可能會被網絡蜘蛛等隨意訪問
  • POST:向指定資源提交數據,請求服務器進行處理(例如提交表單或者上傳文件)。數據被包含在請求本文中。這個請求可能會創建新的資源或修改現有資源,或二者皆有。
  • HEAD:與GET方法一樣,都是向服務器發出指定資源的請求。只不過服務器將不傳回資源的本文部分。它的好處在於,使用這個方法可以在不必傳輸全部內容的情況下,就可以獲取其中“關於該資源的信息”(元信息或稱元數據)。
  • PUT:向指定資源位置上傳其最新內容。
  • OPTIONS:這個方法可使服務器傳回該資源所支持的所有HTTP請求方法。用'*'來代替資源名稱,向Web服務器發送OPTIONS請求,可以測試服務器功能是否正常運作。
  • DELETE:請求服務器刪除Request-URI所標識的資源。

請求URL

URL,即統一資源定位符,也就是我們說的網址,統一資源定位符是對可以從互聯網上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯網上標準資源的地址。互聯網上的每個文件都有一個唯一的URL,它包含的信息指出文件的位置以及瀏覽器應該怎麼處理它。

URL的格式由三個部分組成:
第一部分是協議(或稱爲服務方式)。
第二部分是存有該資源的主機IP地址(有時也包括端口號)。
第三部分是主機資源的具體地址,如目錄和文件名等。

爬蟲爬取數據時必須要有一個目標的URL纔可以獲取數據,因此,它是爬蟲獲取數據的基本依據。

請求頭

包含請求時的頭部信息,如User-Agent,Host,Cookies等信息,下圖是請求請求百度時,所有的請求頭部信息參數

就比如說這個User-Agent就是瀏覽器的信息,如果你直接用python的爬蟲訪問網頁,這裏就會顯式一個pythonXX什麼的,有些網站就是根據這個User-Agent的信息來判斷是不是爬蟲,所以爬蟲一般要進行瀏覽器僞裝,就是訪問的時候把瀏覽器的信息一起傳過去。

請求體

請求是攜帶的數據,如提交表單數據時候的表單數據(POST)

Response中包含了什麼

所有HTTP響應的第一行都是狀態行,依次是當前HTTP版本號,3位數字組成的狀態代碼,以及描述狀態的短語,彼此由空格分隔。

響應狀態

有多種響應狀態,如:200代表成功,301跳轉,404找不到頁面,502服務器錯誤

  • 1xx消息——請求已被服務器接收,繼續處理
  • 2xx成功——請求已成功被服務器接收、理解、並接受
  • 3xx重定向——需要後續操作才能完成這一請求
  • 4xx請求錯誤——請求含有詞法錯誤或者無法被執行
  • 5xx服務器錯誤——服務器在處理某個正確請求時發生錯誤 常見代碼: 200 OK 請求成功 400 Bad Request 客戶端請求有語法錯誤,不能被服務器所理解 401 Unauthorized 請求未經授權,這個狀態代碼必須和WWW-Authenticate報頭域一起使用 403 Forbidden 服務器收到請求,但是拒絕提供服務 404 Not Found 請求資源不存在,eg:輸入了錯誤的URL 500 Internal Server Error 服務器發生不可預期的錯誤 503 Server Unavailable 服務器當前不能處理客戶端的請求,一段時間後可能恢復正常 301 目標永久性轉移 302 目標暫時性轉移

響應頭

如內容類型,類型的長度,服務器信息,設置Cookie,如下圖

響應體

最主要的部分,包含請求資源的內容,如網頁HTMl,圖片,二進制數據等

爬蟲能爬取什麼類型的數據

  1. 網頁文本:如HTML文檔,Json格式化文本等
  2. 圖片:獲取到的是二進制文件,保存爲圖片格式
  3. 視頻:同樣是二進制文件
  4. 其他:只要請求到的,都可以獲取

如何解析數據

  1. 直接處理
  2. Json解析
  3. 正則表達式處理
  4. BeautifulSoup解析處理
  5. PyQuery解析處理
  6. XPath解析處理

關於抓取的頁面數據和瀏覽器裏看到的不一樣的問題

出現這種情況是因爲,很多網站中的數據都是通過js,ajax動態加載的,所以直接通過get請求獲取的頁面和瀏覽器顯示的不同。

如何解決js渲染的問題?

分析ajax
Selenium/webdriver
Splash
PyV8,Ghost.py

怎樣保存數據

文本:純文本txt,json,excel文件

關係型數據庫:mysql,orcle,sql server等

非關係型數據庫:MongoDB,Redis等

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章