ESXI5.0紫屏一例

本帖最後由 maym 於 2012-1-10 10:05 編輯

1.接到用戶反映這個機器死機HP DL380G7機器配置爲XEON 5645 CPU,24G內存,報紫色屏幕報錯,如下圖
                               1.gif
仔細觀察上圖發現基本都是內存地址錯誤,懷疑爲內存故障
用戶重新安裝過ESXI5.0依舊報錯,時間從2小時到2天不等,不是死機就是報紫屏錯誤
檢查內存的插法,ABC的順序,發現沒問題如下圖插法(順序是按英文字母的序列插內存ABCDEFG…..)如果雙CPU,插內存需對稱插,不然會報NUMA錯誤,HP也有內存插法的配置頁面
如下鏈接
內存配置.gif
之後諮詢HP,建議觀察FIRMWARE版本,對其進行升級
拿最新的firmware盤進行更新,發現已經是最新的,不需要進行更新,總結下,其實有問題第一時間更新機箱的固件是很好的法子,應更新後再判斷故障
1.     把機器拿回公司進行進一步診斷,把64G內存用LINUXMEMRY TEST進行測試
發現根本進不去,直接重啓,找了2條原裝機內存進行測試多次,發現有大約1/2的機率
根本進不去TEST的界面,另1/2機率正常進去,懷疑是內存或者主板的問題,用smart start
maintance 抓出來系統日誌其中包括LOG和內置設備的LOG以及smart Arraylog 發現並無異常的報錯
2.     插上那2條原裝機內存,開機進行測試,開機大約1小時,發現機器自動重啓一次,HP內部服務升級高級服務
        開機2天發現依舊紫屏,死機時間不確定,翻日誌也沒有發現任何死機或者重啓的LOG
2天后觀察依舊死機,時間不確定,紫色屏幕依舊是卡到之前的報錯狀態,建議更換主板進行維修!另外用SMARTSTART工具盤進行了整機的診斷,診斷過程時間週期爲20分鐘
3.     12.19日更換了主板運行MEMORYTEST發現正常跑124G的測試,下午3點左右進了ESXI5.0的系統,6點又死機
依舊是紫屏
4.gif
下午1849分將CPU2摘下,把所有內存插到了CPU1上測試
2天看依舊報錯
3.gif
12.20日將另一個CPU24G內存均插到主板上測試運行了1天發現沒問題
12.21日提交申請更換那個報錯的CPU,將CPU換上,2CPU 24GB內存運行,可以進memorytest ,運行了一段時間無任何問題了
再次將之前更換的主板換回來,結果發現,進memory test直接重啓,無奈又更換回新的主板,看來CPU和主板都有問題
總結下,仔細觀察上面的三張圖,有一個共同點
PCUP0都有報錯信息,下面的報錯信息有可能是寄存器地址,目前看6條內存均無問題,跟開始判斷並不一樣,開始以爲那一堆報錯地址都是內存的報錯
2012.1.10 日運行多日,與用戶確認此機器沒問題了
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章