[日志分析]在nginx日志中,提取有效的request uri

最近在做公司的nginx log分析,其中一个需求是提取这个月每天被访问Top10的页面,及其访问量。
做这个需求,首先要清洗出有效的页面访问。我采用排除法,去掉 .js .css之类的访问。但最初,我并不能全面的了解要去掉带有哪些后缀的request。
经过清洗 -> 抽样 -> 清洗 -> 抽样 -> 清洗,最终需要过滤掉含有下列后缀的uri

.js  .css  . gif  .jpeg  .jpg  .png  .ico .txt .swf .xml .JPEG .PNG .JPG 

#python代码:
if re.search(r"(\.js|\.css|\.gif|\.jpe?g|\.png|\.ico|\.txt|\.swf|\.JPE?G|\.PNG|\.xml)", request[1]):
        continue

不同公司的日志可能存在一些特殊情况,这还需要抽样分析
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章