AIX故障定位

3.6.1 故障的定義
.弄清楚系統發生了什麼問題
.系統現在能做什麼?不能做什麼?
.故障什麼時候發生的?
.有沒有做平時不同的操作?
.故障有沒有規律?定時還是不定時?發生的頻率有多高?
.是一臺機器出現故障還是多臺機器故障?故障現象是否相同?
.最近有沒有做改動?如安裝了新的硬件、軟件,改變了系統的一些設置。
3.6.2 故障信息的收集
收集故障信息對於判斷、診斷故障原因,修復系統非常重要。
1)
系統故障記錄(errorlog)
errdemon 進程在系統啓動時自動運行
記錄包括硬件、軟件及其他操作信息
故障記錄文件爲/var/adm/ras/errlog,可備份下來或拷貝到別的機器上分析
errpt 命令的使用見aix的日誌管理小節
2)
控制面板上的LED 代碼
.8 位代碼,通常系統故障燈會同時亮起。某些機型還會同時顯示故障設備位置代碼。
.4 位代碼,通常是Exxx。
.3 位代碼,通常爲0yyy,只看後3位。
.8 位和4位代碼可查看系統服務手冊 (Service Guide)。
3 位代碼可查看系統診斷手冊(Diagnostic Information for Multiple Bus System)。
.閃動的 888, 系統崩潰,硬件或軟件原因造成。按reset 鍵會顯示更多內容。
888-102 一般爲軟件故障(888-102-207 例外)
系統會產生一個dump。
888-102-xxx-0C9 系統正在做dump, 請等待。
888-102-xxx-0C0 系統dump完成,可關電重啓。
888-103 或 105
硬件故障,一般有 SRN 代碼及位置代碼。
3)
SMS (System Management Service) 故障記錄
如何進入SMS 菜單
當主控臺出現鍵盤圖標後(LED 顯示E1F1時)按1鍵。
選擇"Utilities"
選擇"Error Log", 抄下8位故障代碼
(在SMS 中還可以更改系統啓動順序表)
4)
郵件告警
#mail
系統會向root用戶發mail報告出錯信息。通常系統出現故障後沒有進行檢查修復,系統會定時提醒root。
5)
故障診斷程序(Diagnostic)
當發現有硬件故障時應立即使用diag 對系統硬件進行檢查和診斷。
#diag
> 選高級診斷(Advance Diagnostic)
> 選問題診斷(Problem Determination) 或
選系統檢查(System Verification)
(選PD 會對系統錯誤記錄進行分析)
diag運行後會給出SRN 代碼,故障設備名稱及百分比,地址代碼等。
對於PCI機型應在系統報錯7天之內運行diag程序對出錯記錄裏的sense數據進行分析。
3.6.3 硬件故障定位方法
IBM 小型機故障定位方法包括小型機I/O櫃上的顯示面板上的Checkpoints信息,Error Code 和SRNs。
1)
Checkpoints 檢查點是系統加電CMOS初始化程序(initial program load (IPL))運行後顯示在 I/O櫃的顯示面板上一系列信息。
2)
Error Code 當系統運行有錯誤發現時,一個8位碼會顯示在顯示面板上,同時在第二行顯示相對應問題硬件的位置碼。
3)
SRNs (Service request numbers,服務請求碼 )當系統運行有錯誤發現時,SRNs碼會以 xxx-xxx的形式顯示在顯示面板上,同時在AIX的error log中也會有記載。
3.6.4
7133 磁盤櫃的故障定位
當SSA磁盤櫃出現故障時,在磁盤櫃前面板的液晶顯示屏上會顯示相應的SRNs,同時黃色的顯示燈會閃動,在AIX的error log中也會有記載錯誤信息,如:DISK_ERR1,DISK_ERR4,SSA_ARRAY_ERROR等。請在出現問題後記錄下代碼,並致電IBM800服務熱線。
3.6.5 軟件故障定位方法
軟件故障情況錯綜複雜,下面列舉幾個常見案例的故障處理方法。
1) 文件系統空間不夠。
查看有沒有“滿”的文件系統。特別是/、/var、/tmp,不要超過90%。文件系統滿可導致系統不能正常工作,尤其是AIX的基本文件系統,當/tmp目錄使用率是100%,informix數據庫在啓動過程中將會報錯而導致無法啓動,如果/ (根文件系統)滿則會導致用戶不能登錄。對文件系統的使用率可用df –k進行 查看:
# df -k
Filesystem
1024-blocks Free %Used Iused %Iused Mounted on
/dev/hd4
507904 468328 8%
1362 1% /
/dev/hd2
1015808 308648 70%
22255 9% /usr
/dev/hd9var
507904 478372 6%
553 1% /var
/dev/hd3
1015808 982940 4%
75 1% /tmp
/dev/hd1 262144 206528
22% 114 1% /home
/proc - -
- - -
/proc
/dev/hd10opt
1015808 976132 4%
342 1% /opt
/dev/lvsoft
4014080 2430716 40%
163 1% /soft
除/usr文件系統,其他文件系統都不應太滿,一般不超過80%。
處理方法1:刪除垃圾文件
# du -sk * |sort -rn |head
查找出當前目錄下佔空間最大的子目錄,逐層往下直到找出佔空間最大的文件。(要區分哪些目錄是文件系統的 mount point,哪些是文件系統的子目錄)刪除文件,釋放空間。有時刪除文件後空間並不馬上釋放,這是由於你刪除的文件正被某個程序打開。只有當這個程序停止後空間才釋放,有時甚至需要重起系統。
處理方法2:增加文件系統大小
# smitty chjfs
文件系統可以在任何時候加大,前提是卷組(VG)中有剩餘空間。
2)
檢查文件系統的完整性
# umount filesystem_name
# fsck -y filesystem_name
注意:文件系統必須先umount,再做檢查和修復,否則可導致未
知的後果。
3)
查看卷組信息(lsvg -l vg_name):
有沒有"stale"狀態的邏輯卷。 若有,用syncvg 命令修復"stale"邏輯卷。
4)
檢查內存交換區(paging space)使用率(lsps -s):
使用率是否超過70% ,若有則用chps –sX pgname增加X個PP或用
mkps –a –n –sX myvg在myvg上增加一個PP數爲X的內存交換區。
5)
小型機內存泄漏問題
小型機出現內存泄漏,即系統或應用進程無法將使用過的內存釋放,使可用內存的容量逐漸減少。如果可用內存降到某最小值將造成系統或應用程序無法FORK子進程,就會造成系統癱瘓。 通常我們可以用ps和sar命令來查看小型機內存和CPU佔用率的大概情況以及各進程的內存和CPU佔用率的發展趨勢。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章