本帖最後由 maym 於 2012-1-10 10:05 編輯 1.接到用戶反映這個機器死機HP DL380G7機器配置爲XEON 5645 雙CPU,24G內存,報紫色屏幕報錯,如下圖 仔細觀察上圖發現基本都是內存地址錯誤,懷疑爲內存故障 用戶重新安裝過ESXI5.0依舊報錯,時間從2小時到2天不等,不是死機就是報紫屏錯誤 檢查內存的插法,ABC的順序,發現沒問題如下圖插法(順序是按英文字母的序列插內存ABCDEFG…..)如果雙CPU,插內存需對稱插,不然會報NUMA錯誤,HP也有內存插法的配置頁面 如下鏈接 之後諮詢HP,建議觀察FIRMWARE版本,對其進行升級 拿最新的firmware盤進行更新,發現已經是最新的,不需要進行更新,總結下,其實有問題第一時間更新機箱的固件是很好的法子,應更新後再判斷故障 1. 把機器拿回公司進行進一步診斷,把6條4G內存用LINUX的MEMRY TEST進行測試 發現根本進不去,直接重啓,找了2條原裝機內存進行測試多次,發現有大約1/2的機率 根本進不去TEST的界面,另1/2機率正常進去,懷疑是內存或者主板的問題,用smart start 的maintance 抓出來系統日誌其中包括LOG和內置設備的LOG以及smart Array的log 發現並無異常的報錯 2. 插上那2條原裝機內存,開機進行測試,開機大約1小時,發現機器自動重啓一次,HP內部服務升級高級服務 開機2天發現依舊紫屏,死機時間不確定,翻日誌也沒有發現任何死機或者重啓的LOG 2天后觀察依舊死機,時間不確定,紫色屏幕依舊是卡到之前的報錯狀態,建議更換主板進行維修!另外用SMARTSTART工具盤進行了整機的診斷,診斷過程時間週期爲20分鐘 3. 12.19日更換了主板運行MEMORYTEST發現正常跑1圈24G的測試,下午3點左右進了ESXI5.0的系統,6點又死機 依舊是紫屏 下午18:49分將CPU2摘下,把所有內存插到了CPU1上測試 第2天看依舊報錯 12.20日將另一個CPU和24G內存均插到主板上測試運行了1天發現沒問題 12.21日提交申請更換那個報錯的CPU,將CPU換上,2個CPU 和24GB內存運行,可以進memorytest ,運行了一段時間無任何問題了 再次將之前更換的主板換回來,結果發現,進memory test直接重啓,無奈又更換回新的主板,看來CPU和主板都有問題 總結下,仔細觀察上面的三張圖,有一個共同點 PCUP0都有報錯信息,下面的報錯信息有可能是寄存器地址,目前看6條內存均無問題,跟開始判斷並不一樣,開始以爲那一堆報錯地址都是內存的報錯 2012.1.10 日運行多日,與用戶確認此機器沒問題了 |
ESXI5.0紫屏一例
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.