[日誌分析]在nginx日誌中,提取有效的request uri

最近在做公司的nginx log分析,其中一個需求是提取這個月每天被訪問Top10的頁面,及其訪問量。
做這個需求,首先要清洗出有效的頁面訪問。我採用排除法,去掉 .js .css之類的訪問。但最初,我並不能全面的瞭解要去掉帶有哪些後綴的request。
經過清洗 -> 抽樣 -> 清洗 -> 抽樣 -> 清洗,最終需要過濾掉含有下列後綴的uri

.js  .css  . gif  .jpeg  .jpg  .png  .ico .txt .swf .xml .JPEG .PNG .JPG 

#python代碼:
if re.search(r"(\.js|\.css|\.gif|\.jpe?g|\.png|\.ico|\.txt|\.swf|\.JPE?G|\.PNG|\.xml)", request[1]):
        continue

不同公司的日誌可能存在一些特殊情況,這還需要抽樣分析
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章