RS/6000小型機故障的基本定位方法
一故障的定義
.弄清楚系統發生了什麼問題
.系統現在能做什麼?不能做什麼?
.故障什麼時候發生的?
.有沒有做平時不同的操作?
.故障有沒有規律?定時還是不定時?發生的頻率有多高?
.是一臺機器出現故障還是多臺機器故障?故障現象是否相同?
.最近有沒有做改動?如安裝了新的硬件、軟件,改變了系統的一些設置。
二故障信息的收集
1)收集故障信息對於判斷、診斷故障原因,修復系統非常重要。
2)系統故障記錄(errorlog)
errdemon進程在系統啓動時自動運行
記錄包括硬件、軟件及其他*作信息
故障記錄文件爲/var/adm/ras/errlog,可備份下來或拷貝到別的機器上分析
errpt命令的使用(普通用戶權限也可使用)
#errpt |more 列出簡短出錯信息
T(類型): P 永久; T 臨時; U 未知 (永久性的錯誤應引起重視)
C(分類): H 硬件; S 軟件; O 用戶; U未知
#errpt -d H 列出所有硬件出錯信息
#errpt -d S 列出所有軟件出錯信息
#errpt -aj ERROR_ID 列出詳細出錯信息
# errpt -aj 0502f666 <--- ERROR_ID用大小寫均可
3)控制面板上的LED代碼
.8 位代碼,通常系統故障燈會同時亮起。某些機型還會同時顯示故障設備位置代碼。
.4 位代碼,通常是Exxx。
.3 位代碼,通常爲0yyy,只看後3位。
.8 位和4位代碼可查看系統服務手冊 (Service Guide)。
3 位代碼可查看系統診斷手冊(Diagnostic Information for Multiple Bus System)。
.閃動的 888, 系統崩潰,硬件或軟件原因造成。按reset 鍵會顯示更多內容。
888-102 一般爲軟件故障(888-102-207 例外)
系統會產生一個dump。
888-102-xxx-0C9 系統正在做dump, 請等待。
888-102-xxx-0C0 系統dump完成,可關電重啓。
888-103 或 105
硬件故障,一般有 SRN 代碼及位置代碼。
4)SMS (System Management Service) 故障記錄
如何進入SMS 菜單
當主控臺出現鍵盤圖標後(LED 顯示E1F1時)按1鍵。
選擇"Utilities"
選擇"Error Log", 抄下8位故障代碼
(在SMS 中還可以更改系統啓動順序表)
5)MAIL
#mail
系統會向root用戶發mail報告出錯信息。通常系統出現故障後沒有進行檢查修復,系統會定時提醒root。
6)運行故障診斷程序(Diagnostic),對系統硬件進行檢查和診斷。
當發現有硬件故障時應立即使用diag
#diag
> 選高級診斷(Advance Diagnostic)
> 選問題診斷(Problem Determination) 或
選系統檢查(System Verification)
(選PD 會對系統錯誤記錄進行分析)
diag運行後會給出SRN 代碼,故障設備名稱及百分比,地址代碼等。
對於PCI機型應在系統報錯7天之內運行diag程序對出錯記錄裏的sense數據進行分析。
7)其他用於收集系統信息的命令
lsdev -C 系統設備信息
#lsdev -Cc disk
lspv查看物理卷信息
#lspv
lsvg查看卷組信息
#lsvg datavg
#lsvg -l rootvg
lslpp查看文件組信息
#lslpp -L |grep 23100020
lsattr查看設備參數設置
#lsattr -El ent2
lscfg查看VPD信息(Virtual Product Data)
#lscfg -vl ssa1
不同的硬件設備有不同的VPD,所含的格式和信息都不一樣。通常備件號和微碼版本最有參考價值。注:FRU(Field Replace Unit)纔是真正的備件號。
三硬件故障定位方法
IBM小型機故障定位方法包括小型機I/O櫃上的顯示面板上的Checkpoints信息,Error Code 和SRNs。
Checkpoints 檢查點是系統加電CMOS初始化程序(initial program load (IPL))運行後顯示在 I/O櫃的顯示面板上一系列信息。
IPL流程
當交流電源接到系統後,IPL流程就開始了,IPL流程包括四個步驟:
. Phase 1: Service Processor 的初始化
Phase 1 開始於交流電源接到系統後,直到OK顯示在I/O櫃上的顯示面板上爲止。在這個步驟會顯示 8xxx 或9xxx checkpoints代碼 。
. Phase 2: 由 Service Processor 引導的硬件初始化
Phase 2 開始於按下I/O櫃上的白色電源開關。在這個步驟會顯示 9xxx checkpoints 。91FF 是最後的代碼標誌着第三步驟的開始
. Phase 3: 系統固件的初始化
在 Phase 3, 一個系統處理器接管控制並繼續初始化系統資源, 在這個步驟會顯示 Exxx。E105是最後的代碼標誌着第四步驟AIX啓動的開始。在這個過程中還會顯示各種位置碼( 位置碼代表着系統的每一個部分)
. Phase 4: AIX 啓動
當AIX開始啓動時,顯示面板上的代碼爲 0xxx ,同時位置碼會出現在第二行。當AIX的登錄窗口出現在控制檯上時第四步驟結束同時顯示面板上再無任何信息出現。
Error Code 當系統運行有錯誤發現時,一個8位碼會顯示在顯示面板上,同時在第二行顯示相對應問題硬件的位置碼。
SRNs (Service request numbers,服務請求碼 )當系統運行有錯誤發現時,SRNs碼會以 xxx-xxx的形式顯示在顯示面板上,同時在AIX的error log中也會有記載。
以上所有代碼都會有相應的步驟解決。由於代碼繁多,請在出現問題後記錄下代碼,並致電IBM服務熱線。
系統的啓動順序:
系統不能啓動
系統停在Stage 1,可能爲電源、系統板、CPU、內存等硬件故障。記錄故障代碼通知IBM工程師。
系統停在Stage 2,可能是啓動順序表(bootlist)損壞或I/O子系統故障。可嘗試進入SMS 菜單檢查啓動順序表,並修改。若在選擇bootlist時沒有硬盤設備可選或顯示的硬盤信息不正確則可能是硬盤故障。若根本沒有SCSI設備可選則鏈路有問題。
系統停在Stage3,可能是硬盤數據損壞,系統設置文件出錯,或I/O子系統故障。
系統停在551,555或557
發生在系統啓動的第三階段 (Stage 3),可能是:
文件系統損壞
文件系統日誌(jfslog)損壞
rootvg中有壞硬盤
修復方法
用系統光盤或系統備份帶啓動(必須與硬盤中的*作系統版本一致)
啓動後選擇選項3
"Start Maintenance Mode for System Recovery"
> "Access a Root Volume Group"
> "Access this volume group and start a shell
before mounting the file systems"
格式化文件系統日誌(jfslog)
#/usr/sbin/logform /dev/hd8
檢查修復文件系統
# fsck -y /dev/hd1 (/home 文件系統)
# fsck -y /dev/hd2 (/usr 文件系統)
# fsck -y /dev/hd3 (/tmp 文件系統)
# fsck -y /dev/hd4 (/ 文件系統)
# fsck -y /dev/hd9var (/var 文件系統)
... ...
用 exit 命令退出,文件系統會自動 mount 起來。
重建bootimage
# lslv -m hd5 找出bootimage所在的硬盤,如hdisk0
# bosboot -ad /dev/hdisk0
# bootlist -m normal /dev/hdisk0 重建啓動順序表。
重啓動系統
# shutdown -Fr
如上述步驟不奏效
用系統備份帶恢復系統。
如備份帶不能恢復,用診斷光盤(Diagnostic CDROM)檢查是否壞硬盤。
CDE圖形界面掛死
CDE 運行時不要更改網絡參數(如:主機名和IP 地址)
更改網卡設置,請先退出CDE圖形環境,選擇命令行方式登錄,在字符界面下更改。
如CDE 已經掛死
遠程 telnet 登錄
找出所有dt有關的進程用kill命令殺掉
# ps -ef |grep dt
... ...
# kill PID
檢查當前主機名
# hostname
tscf50
查看主機名是否對應有效的IP地址
# netstat -i |grep tscf50
tr0* 1500 9.185.40 tscf50 506049 0 28247 0 0
更改主機名或IP地址,使主機名與當前有效的IP地址存在對應關係。
# smitty tcpip
重新啓動CDE界面
# /etc/rc.dt
HACMP環境下可把主機名alias到127.0.0.1上
# cat /etc/hosts
127.0.0.1 loopback localhost tscf50 # loopback (lo0) name/addressbvg
.系統dump
發生在系統崩潰時,AIX會做dump(系統內存的快照)。
此時機器會顯示閃動的888 102 xxx 0cx 代碼:
0c9 系統dump 進行中。0c9狀態可能會維持超過2分鐘,
不要關電和按reset, 等待dump做完。
0c0 dump 成功完成,這時可以斷電重起。
0c2 手動啓動dump 功能
0c4 dump 設備空間不足,只有部分信息保存下來
0c5 不明原因導致dump 失敗
一般dump是由於軟件出錯引起(888-102-207 除外),機器通常可以重啓。重啓時可能提示用戶插入磁帶拷貝dump文件,不要選擇退出,這樣會丟失重要的故障信息。
dump的有關設置
估算系統dump的大小,在系統最繁忙時(內存使用最多)
# sysdumpdev -e
0453-041 Estimated dump size in bytes: 53477376
# lsps -a
Page Space Physical Volume Volume Group Size %Used Active
paging00 hdisk0 rootvg 480MB 1 yes
hd6 hdisk1 rootvg 544MB 1 yes
當前的設置
#sysdumpdev -l
primary /dev/hd6 <-- dump的主設備
secondary /dev/sysdumpnull
copy directory /var/adm/ras <-- dump拷貝的目錄
forced copy flag TRUE
always allow dump TRUE
hd6應比估算值稍大。
/var/adm/ras 是默認的dump拷貝目錄,比較估算值,保證/var文件系統有足夠的剩餘空間拷貝dump文件。否則機器重起時會提示用戶插入磁帶。
dump文件名爲vmcore.#
對PCI機型如要手動做dump,須把" always allow dump" 先設成true。
# sysdumpdev -K
dump打包
# snap -a -o /dev/rmt# 或
# snap -a -c 把/tmp/ibmsupt目錄做成一個壓縮文件
snap.tar.Z如果/tmp文件系統空間不夠,
可用-d directory 參數指定別的目錄代
替/tmp/ibmsupt
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.