淺析網站日誌LOG文件

  每個網絡蜘蛛都有自己的名字,在抓取網頁的時候,都會向網站標明自己的身份。網絡蜘蛛在抓取網頁的時候會發送一個請求,這個請求中就有一個字段爲User-agent,用於標識此網絡蜘蛛的身份。
  例如Google網絡蜘蛛的標識爲GoogleBot,Baidu網絡蜘蛛的標識爲BaiDuSpider,Yahoo網絡蜘蛛的標識爲Inktomi Slurp。  而每個用戶來請求網頁時候,也會標誌自己的身份:下面的就是用戶的身份了
  Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+SE+1.X;+.NET+CLR+2.0
  在查看日誌代碼中常看到Mozilla/4.0+代碼,如下
  2010-04-19 02:47:53 GET /index.html - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.baidu.com/s?tn=request_pg&bs=%B1%A3%B6%A8%BD%DC%B3%AC%B1%A3%BD%E0&f=8&wd=%B1%A3%B6%A8%B1%A3%BD%E0 200 0 7990   2010-04-19 02:47:53 GET /images/bg.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 403   2010-04-19 02:47:53 GET /images/tab.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 571   2010-04-19 02:47:54 GET /images/bullet.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 344   2010-04-19 02:47:54 GET /images/noticebg.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 378   2010-04-19 02:47:54 GET /images/icon.gif - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.wz0312.cn/ 200 0 373
  今天給大家解析下他的意思:
  以第一行爲例:2010-04-19 02:47:53 GET /index.html - 121.19.86.133 HTTP/1.1 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1;+.NET+CLR+2.0.50727) http://www.baidu.com/s?tn=request_pg&bs=%B1%A3%B6%A8%BD%DC%B3%AC%B1%A3%BD%E0&f=8&wd=%B1%A3%B6%A8%B1%A3%BD%E0 200 0 7990
  2010-04-19 02:47:53爲日期和時間
  GET爲從服務器獲取信息,一般爲 GET或者POST
   /index.html 爲網站的首頁了
  121.19.86.133爲ip地址
  HTTP/1.1爲文件傳輸協議1.1
   Mozilla/4.0+表示使用的是與Netspace兼容的Mozilla瀏覽器
  compatible 適合的;兼用的
  MSIE6.0 微軟公司出品的IE瀏覽器6.0版本
  Windows NT 5.1 微軟公司出品的服務器操作系統
  SV1=Security Version 1 安全版本1
  http://www.baidu.com/s?tn=request_pg&bs=%B1%A3%B6%A8%BD%DC%B3%AC%B1%A3%BD%E0&f=8&wd=%B1%A3%B6%A8%B1%A3%BD%E0
   把它複製到地址欄可以看到是百度搜索“保定保潔”排名
  200表示返回狀態:200獲取成功;400文件沒有找到;401需要密碼;403禁止查看;500服務器錯誤
  7990表示文件大小
  附:一些常用代碼含義
  200(成功) 服務器已成功處理了請求。 通常,這表示服務器提供了請求的網頁。 如果針對您的 robots.txt 文件顯示此狀態代碼,則表示搜索引擎已成功檢索到該文件。
  201(已創建) 請求成功並且服務器創建了新的資源。
  202(已接受) 服務器已接受請求,但尚未處理。
  203(非授權信息) 服務器已成功處理了請求,但返回的信息可能來自另一來源。
  205(重置內容) 服務器成功處理了請求,但沒有返回任何內容。
  204 響應不同,此響應要求請求者重置文檔視圖(例如,清除表單內容以輸入新內容)。
  206(部分內容) 服務器成功處理了部分 GET 請求
  3xx (重定向)
   300(多種選擇) 針對請求,服務器可執行多種操作。 服務器可根據請求者 (user agent) 選擇一項操作,或提供操作列表供請求者選擇。
  301(永久移動) 請求的網頁已永久移動到新位置。 服務器返回此響應(對 GET 或 HEAD 請求的響應)時,會自動將請求者轉到新位置。 您應使用此代碼告訴 Googlebot 某個網頁或網站已永久移動到新位置。
  302(臨時移動) 服務器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來進行以後的請求。 此代碼與響應 GET 或 HEAD 請求的 301 代碼類似,會自動將請求者轉到不同的位置,但您不應使用此代碼來告訴 Googlebot 某個網頁或網站已經移動,因爲 Googlebot 會繼續抓取原有位置並編制索引。
  303(查看其他位置) 請求者應當對不同的位置使用單獨的 GET 請求來檢索響應時,服務器返回此代碼。 對於除 HEAD 之外的所有請求,服務器會自動轉到其他位置。
  304(未修改) 自從上次請求後,請求的網頁未修改過。 服務器返回此響應時,不會返回網頁內容。
  305(使用代理) 請求者只能使用代理訪問請求的網頁。 如果服務器返回此響應,還表示請求者應使用代理。
  307(臨時重定向) 服務器目前從不同位置的網頁響應請求,但請求者應繼續使用原有位置來進行以後的請求。 此代碼與響應 GET 和 HEAD 請求的 301 代碼類似,會自動將請求者轉到不同的位置,但您不應使用此代碼來告訴 Googlebot 某個頁面或網站已經移動,因爲 Googlebot 會繼續抓取原有位置並編制索引。
  {header('HTTP/1.1 301 Moved Permanently');
   header('Location:index.html');}
  意思是/index.php重定向到/index.html
   400(錯誤請求) 服務器不理解請求的語法。
  401(未授權) 請求要求身份驗證。 對於需要登錄的網頁,服務器可能返回此響應
  403(禁止) 服務器拒絕請求。 如果您在 Googlebot 嘗試抓取您網站上的有效網頁時看到此狀態代碼(可以在 Google 網站管理員工具診斷下的網絡抓取頁面上看到此信息),可能是您的服務器或主機拒絕 Googlebot 訪問。
  404(未找到) 服務器找不到請求的網頁。 例如,對於服務器上不存在的網頁經常會返回此代碼。
  500(服務器內部錯誤) 服務器遇到錯誤,無法完成請求。  501(尚未實施) 服務器不具備完成請求的功能。 
發佈了83 篇原創文章 · 獲贊 9 · 訪問量 29萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章