系統故障分析和排查

日誌的功能

  • 用於記錄系統、程序運行中發生的各種事件

  • 通過閱讀日誌,有助於診斷和解決系統故障


日誌文件的分類

內核及系統日誌

  • 由系統服務syslog統一進行管理,日誌格式基本相似

用戶日誌

  • 記錄系統用戶登錄及退出系統的相關信息

程序日誌

  • 由各種應用程序獨立管理的日誌文件,記錄格式不統一


日誌保存位置

  • 默認位於:/var/log 目錄下


主要日誌文件介紹

  • 內核及公共消息日誌:/var/log/messages

  • 計劃任務日誌:/var/log/cron

  • 系統引導日誌:/var/log/dmesg

  • 郵件系統日誌:/var/log/maillog

  • 用戶登錄日誌:/var/log/lastlog、/var/log/secure、/var/log/wtmp、/var/run/btmp

  • ……


內核及系統日誌

由系統服務 syslogd 統一管理

軟件包:sysklogd-1.4.1-39.2

主要程序:/sbin/klogd、/sbin/syslogd

配置文件:/etc/syslog.conf


日誌消息的級別

0 EMERG(緊急):會導致主機系統不可用的情況

1 ALERT(警告):必須馬上採取措施解決的問題

2 CRIT(嚴重):比較嚴重的情況

3 ERR(錯誤):運行出現錯誤

4 WARNING(提醒):可能會影響系統功能的事件

5 NOTICE(注意):不會影響系統但值得注意

6 INFO(信息):一般信息

7 DEBUG(調試):程序或系統調試信息等


日誌記錄的一般格式

205148699.jpg

時間標籤:消息發出的日期和時間

主機名:生成消息的計算機的名字

子系統名稱:發出消息的應用程序名稱

消息:消息的具體內容


用戶日誌分析

保存了用戶登錄、退出系統等相關信息

/var/log/lastlog:最近的用戶登錄事件

/var/log/wtmp:用戶登錄、註銷及系統開、關機事件

/var/run/utmp:當前登錄的每個用戶的詳細信息

/var/log/secure:與用戶驗證相關的安全性事件

分析工具

users 、who、w、last、lastb


程序日誌分析

由相應的應用程序獨立進行管理

Web服務:/var/log/httpd/

  • access_log、error_log

代理服務:/var/log/squid/

  • access.log、cache.log、squid.out、store.log

FTP服務:/var/log/xferlog

……

分析工具

  • 文本查看、grep過濾檢索、Webmin管理套件中查看

  • awk、sed等文本過濾、格式化編輯工具

  • Webalizer、Awstats等專用日誌分析工具


日誌管理策略

及時作好備份和歸檔

延長日誌保存期限

控制日誌訪問權限

  • 日誌中可能會包含各類敏感信息,如賬戶、口令等

集中管理日誌

  • 便於日誌信息的統一收集、整理和分析

  • 杜絕日誌信息的意外丟失、惡意篡改或刪除


修復MBR扇區故障

故障原因

  • 病毒、***等造成的破壞

  • 不正確的分區操作、磁盤讀寫誤操作

故障現象

  • 找不到引導程序,啓動中斷

  • 無法加載操作系統,開機後黑屏

解決思路

  • 應提前作好備份文件

  • 以RHEL安裝光盤引導進入急救模式

  • 從備份文件中恢復


修復GRUB引導故障

故障原因

  • MBR中的GRUB引導程序遭到破壞

  • grub.conf文件丟失、引導配置有誤

故障現象

  • 系統引導停滯,顯示“grub>”提示符

解決思路

  • 嘗試手動輸入引導命令

  • 進入急救模式,從備份中恢復 grub.conf

  • 向MBR扇區中重建grub程序


/etc/inittab文件丟失

故障原因

  • inittab文件被誤刪除,或者存在配置錯誤

故障現象

  • 啓動中提示 “... INIT: No inittab file found”

  • 系統停滯,無法完成初始化

解決思路

  • 進入急救模式,從備份文件中恢復

  • 或者,在急救模式中重新安裝 initscripts 軟件包

  • rpm -ivh --replacepkgs initscripts-軟件包版本號.rpm


遺忘root用戶密碼

故障原因

  • 遺忘root用戶的密碼

故障現象

  • 無法進行需要root權限的管理操作

  • 若沒有其他可用帳號,將無法登錄系統

解決思路

  • 引導進入單用戶模式,然後重設密碼

  • grub > kernel ... singles1

  • 或進入急救模式,然後重設密碼


修復文件系統

故障原因

  • 非正常關機、突然斷電、設備讀寫失誤等

  • 文件系統的超級塊(super-block)信息被破壞

故障現象

  • 無法向分區中讀取或寫入數據

  • 啓動後提示“Give root password for maintenance”

解決思路

  • 根據提示輸入root口令,進入修復狀態

  • 使用fsck命令進行修復


磁盤資源耗盡故障

故障原因

  • 磁盤空間已被大量的數據佔滿,空間耗盡

  • 雖然還有可用空間,但文件數i節點耗盡

故障現象

  • 無法寫入新的文件,提示“… : 設備上沒有空間”

  • 部分程序無法運行,甚至系統無法啓動

解決思路

  • 清理磁盤空間,刪除無用、冗餘的文件

  • 轉移或刪除佔用大量i節點的瑣碎文件

  • 進入單用戶模式、急救模式進行修復

  • 爲用戶設置磁盤配額


檢測磁盤壞道

故障原因

  • 磁盤設備中存在壞道(邏輯的或物理的)

故障現象

  • 讀取磁盤中的數據時,磁盤設備發出異常聲響。

  • 訪問磁盤中的某個文件時,反覆讀取且出錯,提示文件損壞。

  • 對於新建立的分區無法完成格式化。

  • 系統使用該磁盤時頻繁死機

解決思路

  • 檢測硬盤中是否存在壞道

  • 修復硬盤,或更換新的硬盤

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章