網站日誌分析（Apache）

原創

2018-09-12 06:18

網站日誌分析篇1（Apache）：

1.獲得訪問前10位的ip地址
cat access.log|awk ‘{print $1}’|sort|uniq -c|sort -nr|head -10
cat access.log|awk ‘{counts[$(11)]+=1}; END {for(url in counts) print counts[url], url}’

2.訪問次數最多的文件或頁面,取前20
cat access.log|awk ‘{print $11}’|sort|uniq -c|sort -nr|head -20

3.列出傳輸最大的幾個exe文件（分析下載站的時候常用）
cat access.log |awk ‘($7~/\.exe/){print $10 ” ” $1 ” ” $4 ” ” $7}’|sort -nr|head -20

4.列出輸出大於200000byte(約200kb)的exe文件以及對應文件發生次數
cat access.log |awk ‘($10 > 200000 && $7~/\.exe/){print $7}’|sort -n|uniq -c|sort -nr|head -100

5.如果日誌最後一列記錄的是頁面文件傳輸時間，則有列出到客戶端最耗時的頁面
cat access.log |awk ‘($7~/\.php/){print $NF ” ” $1 ” ” $4 ” ” $7}’|sort -nr|head -100

6.列出最最耗時的頁面(超過60秒的)的以及對應頁面發生次數
cat access.log |awk ‘($NF > 60 && $7~/\.php/){print $7}’|sort -n|uniq -c|sort -nr|head -100

7.列出傳輸時間超過 30 秒的文件
cat access.log |awk ‘($NF > 30){print $7}’|sort -n|uniq -c|sort -nr|head -20

8.統計網站流量（G)
cat access.log |awk ‘{sum+=$10} END {print sum/1024/1024/1024}’

9.統計404的連接
awk ‘($9 ~/404/)’ access.log | awk ‘{print $9,$7}’ | sort

10. 統計http status.
cat access.log |awk ‘{counts[$(9)]+=1}; END {for(code in counts) print code, counts[code]}'
cat access.log |awk '{print $9}'|sort|uniq -c|sort -rn

10.蜘蛛分析
查看是哪些蜘蛛在抓取內容。
/usr/sbin/tcpdump -i eth0 -l -s 0 -w - dst port 80 | strings | grep -i user-agent | grep -i -E 'bot|crawler|slurp|spider'

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

CentOS 安裝 SVN1.7.7

CentOS默認的yum --install subversion ，安裝的是1.6版本安裝1.7腳本爲： #!/bin/bash echo WANdisco Subversion Installer for Cen

2020-07-08 12:36:10

linux CentOS7 mysql 源碼安裝和rpm安裝

今天是安裝linux mysql第三天，終於安裝成功了。第一種方法，源碼安裝。下載 cmake-2.8.10.2.tar.gz 和 mysql-5.6.4-m7.tar.gz 上傳到服務器解壓完成 1.在cmake-2.8.10.2這

weixin_38081382

2020-07-08 12:31:47

No more authentication methods to try,Permission denied (publickey)

簡言之就是ssh client更新了，不支持rsa的私鑰，導致無法登陸。ssh登陸服務器，出現類似下面的提示：debug3: authmethod_is_enabled publickey debug1: Next authenticati

2023-11-21 09:53:05

linux有磁盤空間卻顯示不足 linux中inode使用率過高處理辦法 linux中inode使用率過高處理辦法

linux中inode使用率過高處理辦法前幾天收到監控告警，說Inode節點空間不足，之前沒處理過這種問題，所以記錄一下處理過程，便於以後查閱。 Inode使用率高並不會影響系統正常運行和新文件的創建，但是當使用率達到100%的時候，

故宮博物院

2022-12-25 14:18:39

Unixbench：簡介及使用【轉】

轉自：https://www.cnblogs.com/chenshengkai/p/12761467.html 一、安裝 1.下載 https://github.com/kdlucas/byte-unixbench/archive

2022-06-30 14:35:50

linux下kill殺死進程的命令

常規篇：　首先，用ps查看進程，方法如下： $ ps -ef … smx 1822 1 0 11:38 ? 00:00:49 gnome-terminal smx 1823 1822 0 11:38 ? 00:00:00 gnome-p

2020-11-10 13:34:45

基於tiny4412的Linux內核移植 -- 設備樹的展開【轉】

轉自：https://www.cnblogs.com/pengdonglin137/p/5248114.html 閱讀目錄(Content) 作者信息平臺簡介摘要正文一、根據設備樹創建device node鏈表二、遍歷de

2020-10-22 13:20:25

增加FastDfs多文件存儲路徑

項目需要增加聊天會話功能，涉及到上傳語音圖片等信息。考慮新增一個目錄，所有相關文件存在一個相同的目錄中。因此需要對原項目增加一個存儲的路徑。以前的項目因爲只有一個路徑，且已經運行中。走了些彎路，僅此記錄操作過程。nginx version

2020-07-08 12:37:23

supervisor管理redis，mysql進程

參考:https://blog.csdn.net/lihao21/article/details/77689790 查看supervisor的管理文件查看redis的啓動文件編寫supervisor的ini文件 [progra

2020-07-08 12:37:23

linux下禁止用戶使用密碼方式登陸，而使用密鑰方式登陸

使用putty生成密鑰和登陸根據公鑰認證的原理（見後面說明），認證雙方任何一方都可製作該鑰匙對，並且只要認證方有被認證方的公鑰信息，即可匹配成功。這裏，我們先以Windows上的putty登陸Linux服務器爲例說明。所以，該密鑰對由pu

2020-07-08 12:36:09

find的用法：find查找指定文件和文件夾，設置爲指定用戶和用戶組

find . -name js 查找當前文件夾內名稱完全是js的文件和文件夾 find . -name "*js*" 查找當前文件夾內名稱包含js的文件和文件夾 find . -type d -name "*js" 查找當前文件夾

2020-07-08 12:35:54

centos創建應用快捷方式文件的語法

以下是在創建應用程序桌面快捷方式文件的內容要求： [Desktop Entry] 文件頭 Encoding 編碼格式 Name 應用名稱 Name[xx] 不同語言的應用名稱 Comment 描述 E

2020-07-08 12:33:16

關於IP地址與主機名映射的/etc/hosts文件配置

爲什麼要這樣做？首先，在hadoop工作就像是一個社團幫派，master是老大，而slave1、slave2等就是master的小弟。但是，slave並沒有像我們那麼聰明一眼就能分辨出自己的老大，它們是以ip地址作爲辨別的。那麼

2020-07-08 12:33:16

阿里年薪破百架構師推薦：鳥哥的Linux私房菜，搭配面試題，真香

在Linux實操的過程中，你是否有過這些疑問：如何提取日誌中含有關鍵字的指定行，上一行或上幾行？ ln 做了符號鏈接，對符號鏈接進行權限修改，原文件是否會受到影響？ Shell 腳本里有很多特殊符號，到底該怎麼用？網上流傳的

毛发旺盛的程序员

2020-07-08 12:27:30

臨時設置環境變量（python和Linux命令行）

python中設置環境變量（臨時）使用os模塊 import os #當前存在的環境變量，可以在ipython中直接輸入下面這句查看keys In [3]: os.environ.keys() Out[3]: ['LC_NUM

2020-07-08 12:24:41

24小時熱門文章

Python 潮流週刊#52：Python 處理 Excel 的資源

最新文章

最新評論文章