文章目錄
常見Headers參數詳解
Accept
請求報頭域,用於指定客戶端可接受哪些類型的的信息
需要注意的是它只是建議服務器,而並非就是你寫成什麼他就返回給你什麼。
Accept-Language
指定客戶端可接受的語言類型
Accept-Encoding
指定客戶端可接受的內容編碼
需注意其中一個gzip編碼,有時候爬取內容返回一直是亂碼,問題可能會處在這個參數,它表示客戶端可接受壓縮後的內容。
Cookie
也常用複數形式Cookies。這是最重要的請求頭信息之一。網站爲了辨別用戶進行會話跟蹤二存儲在用戶本地的數據。一般可以直接複製,對於一些變化的可以選擇構造。
Referer
當瀏覽器向web服務器發送請求的時候,一般會帶上Referer,標識這個請求是從哪個頁面鏈接過來的,服務器籍此可以獲得一些信息用於處理。用於統計訪問量、防盜鏈處理等。
User-Agent
向訪問網站提供你所使用的瀏覽器類型及版本、操作系統及版本、瀏覽器內核、等信息的標識。在做爬蟲時加上此信息,可以僞裝爲瀏覽器;如果不加,很可能會被識別出爲爬蟲。
Content-Type
互聯網媒體類型或者MIME類型,在HTTP協議消息頭中,它用來表示具體請求中的媒體類型信息。
例如,text/html代表HTML格式,application/json代表JSON類型等。
Origin
Origin字段裏只包含是誰發起的請求,並沒有其他信息。跟Referer不一樣的 是Origin字段並沒有包含涉及到用戶隱私的URL路徑和請求內容,這個尤其重要。
常見錯誤代碼及錯誤原因
狀態碼 | 說明 | 詳情 |
---|---|---|
100 | 繼續 | 請求者應當繼續提出請求,服務器已經收到請求的一部分正在等待其餘部分 |
101 | 切換協議 | 請求者已要求服務器切換協議,服務器已確認並同意切換 |
200 | 成功 | 服務器已成功處理了請求 |
201 | 已創建 | 請求成功並且服務器創建了新的資源 |
202 | 以接受 | 服務器已接受請求但未做處理 |
203 | 非授權信息 | 服務器已成功處理了請求,但返回的信息可能來自另一個源 |
204 | 無內容 | 服務器成功處理了請求,但沒有返回任何內容 |
205 | 重置內容 | 服務器成功處理了請求,內容被重置 |
206 | 部分內容 | 服務器成功處理了部分內容 |
300 | 多種選擇 | 針對請求,服務器可執行多種操作 |
301 | 永久移動 | 請求的網頁以永久移動到新位置,即永久重定向 |
302 | 臨時移動 | 請求網頁暫時跳轉到其他頁面,即暫時重定向 |
303 | 查看其位置 | 如果原來的請求時post,重定向目標文檔目標文檔應該通過get提取 |
304 | 未修改 | 此次請求返回的網頁未修改,繼續使用上次的資源 |
305 | 使用代理 | 請求者應該使用代理訪問該網頁 |
307 | 臨時重定向 | 請求資源臨時從其他位置相應 |
400 | 錯誤請求 | 服務器無法解析該請求 |
401 | 未授權 | 請求沒有進行身份驗證或驗證通過 |
403 | 禁止訪問 | 服務器拒絕此請求 |
404 | 未找到 | 服務器找不到請求的網頁 |
405 | 方法禁用 | 服務器禁用了請求中指定的方法 |
406 | 不接受 | 無法使用請求的內容響應請求的網頁 |
407 | 需要代理授權 | 請求者需要使用代理授權 |
408 | 請求超時 | 服務器請求超時 |
409 | 衝突 | 服務器在完成請求時發生衝突 |
410 | 已刪除 | 請求的資源已永久刪除 |
411 | 需要有效長度 | 服務器不接受不含有效長度標頭字段的請求 |
412 | 未滿足前提條件 | 服務器未滿足請求者在請求中設置的其中一個前提條件 |
413 | 請求實體過大 | 請求實體過大,超出服務器的處理能力 |
414 | 請求URI過長 | 請求網址過長,服務器無法處理 |
415 | 不支持類型 | 請求格式不被請求請求頁面支持 |
416 | 請求範圍不符 | 頁面無法提供請求的範圍 |
417 | 未滿足期望 | 服務器未滿足期望請求標頭字段的請求 |
500 | 服務器內部錯誤 | 服務器遇到內部錯誤,無法完成請求 |
501 | 未實現 | 服務器不具備完成請求的功能 |
502 | 錯誤網關 | 服務器作爲網關或代理,從上游服務器收到無響應 |
503 | 服務不可用 | 服務器目前無法使用 |
504 | 網關超時 | 服務器作爲網關或代理,但是沒有即使從上游服務器收到請求 |
505 | HTTP版本不支持 | 服務器不支持請求中使用的HTTP協議版本 |
User-Agent集合(列表形式)
user_agent_list = [
# 各種PC端
# Opera
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60",
"Opera/8.0 (Windows NT 5.1; U; en)",
"Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50",
# Firefox
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",
"Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
# Safari
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2",
# chrome
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16",
# 360
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36",
"Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko",
# 淘寶瀏覽器
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11",
# 獵豹瀏覽器
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)",
# QQ瀏覽器
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
# sogou瀏覽器
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; SE 2.X MetaSr 1.0)",
# maxthon瀏覽器
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36",
# UC瀏覽器
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36",
# 各種移動端
# IPhone
"Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
# IPod
"Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
# IPAD
"Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
"Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5",
# Android
"Mozilla/5.0 (Linux; U; Android 2.2.1; zh-cn; HTC_Wildfire_A3333 Build/FRG83D) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
"Mozilla/5.0 (Linux; U; Android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
# QQ瀏覽器 Android版本
"MQQBrowser/26 Mozilla/5.0 (Linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
# Android Opera Mobile
"Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10",
# Android Pad Moto Xoom
"Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13",
# BlackBerry
"Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+",
# WebOS HP Touchpad
"Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0",
# Nokia N97
"Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124",
# Windows Phone Mango
"Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)",
# UC瀏覽器
"UCWEB7.0.2.37/28/999",
"NOKIA5700/ UCWEB7.0.2.37/28/999",
# UCOpenwave
"Openwave/ UCWEB7.0.2.37/28/999",
# UC Opera
"Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999",
# 一部分 PC端的
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]