(玩轉zabbix)硬盤硬件健康狀態監控,部件壽命監控

作者:騷年有夢

E-mail:[email protected]

 

一、SMART概述

   硬盤的故障一般分爲兩種:可預測的(predictable)和不可預測的(unpredictable)。後者偶而會發生,也沒有辦法去預防它,例如芯片突然失效,機械撞擊等。但像電機軸承磨損、盤片磁介質性能下降等都屬於可預測的情況,可以在在幾天甚至幾星期前就發現這種不正常的現象。如果發生這種問題,SMART功能會在開機時響起警報,至少讓使用者有足夠的時間把重要資料轉移到其它儲存設備上。 
最早期的硬盤監控技術起源於1992年,IBM在AS/400計算機的IBM 0662 SCSI 2代硬盤驅動器中使用了後來被命名爲Predictive Failure Analysis(故障預警分析技術)的監控技術,它是通過在固件中測量幾個重要的硬盤安全參數和評估他們的情況,然後由監控軟件得出兩種結果:“硬盤安全”或“不久後會發生故障”。

   不久,當時的微機製造商康柏和硬盤製造商希捷、昆騰以及康納共同提出了名爲IntelliSafe的類似技術。通過該技術,硬盤可以測量自身的的健康指標並將參量值傳送給操作系統和用戶的監控軟件中,每個硬盤生產商有權決定哪些指標需要被監控以及設定它們的安全閾值。 
1995年,康柏公司將該技術方案提交到Small Form Factor(SFF)委員會進行標準化,該方案得到IBM、希捷、昆騰、康納和西部數據的支持,1996年6月進行了1.3版的修正,正式更名爲S.M.A.R.T.(Self-Monitoring Analysis And Reporting Technology),全稱就是“自我檢測分析與報告技術”,成爲一種自動監控硬盤驅動器完好狀況和報告潛在問題的技術標準。  

 
作爲行業規範,SMART規定了硬盤製造廠商應遵循的標準,滿足SMART標準的條件主要包括: 
1)在設備製造期間完成SMART需要的各項參數、屬性的設定; 
2)在特定系統平臺下,能夠正常使用SMART;通過BIOS檢測,能夠識別設備是否支持SMART並可顯示相關信息,而且能辨別有效和失效的SMART信息; 
3)允許用戶自由開啓和關閉SMART功能; 
4)在用戶使用過程中,能提供SMART的各項有效信息,確定設備的工作狀態,並能發出相應的修正指令或警告。在硬盤及操作系統都支持SMART技術並且開啓的情況下,若硬盤狀態不良,SMART技術能夠在屏幕上顯示英文警告信息:“WARNING:IMMEDIATLY BACKUP YOUR DATA AND REPLACE YOUR HARD DISK DRIVE,A FAILURE MAY BE IMMINENT.”(警告:立刻備份你的數據並更換硬盤,硬盤可能失效。) 
SMART功能不斷從硬盤上的各個傳感器收集信息,並把信息保存在硬盤的系統保留區(service area)內,這個區域一般位於硬盤0物理面的最前面幾十個物理磁道,由廠商寫入相關的內部管理程序。這裏除了SMART信息表外還包括低級格式化程序、加密解密程序、自監控程序、自動修復程序等。用戶使用的監測軟件通過名爲“SMART Return Status”的命令(命令代碼爲:B0h)對SMART信息進行讀取,且不允許最終用戶對信息進行修改。

 

是的,我們要通過SMART來監控硬盤的健康狀態和硬盤部件得壽命。下面是我這邊監控效果:


 

 

SSD硬盤硬件監控情況:

wKiom1aUu2mzmaOlAAESbDAjEPU067.png

監控內容解釋:

編程錯誤計數塊數       : 字面意思

通電次數            : 字面意思

硬盤使用時間百分比    : 這個參數的含義一目瞭然,表示硬盤通電的時間,數據值直接累計了設備通電的時長,新硬盤當然應該接近0,但不同硬盤的計數單位有所不同,有以小時計數的,也有以分、秒甚至30秒爲單位的,這由磁盤製造商來定義。接近臨界值表明硬盤已接近預計的設計壽命,當然這並不表明硬盤將出現故障或立即報廢。參考磁盤製造商給出的該型號硬盤的MTBF(平均無故障時間)值,可以大致估計剩餘壽命或故障概率。

硬盤溫度           : 字面意思

硬盤元件擦寫壽命百分比所有好塊的平均擦寫次數。 Flash芯片有寫入次數限制,當使用FAT文件系統時,需要頻繁地更新文件分配表。如果閃存的某些區域讀寫過於頻繁,就會比其它區域磨損的更快,這將明顯縮短整個硬盤的壽命(即便其它區域的擦寫次數還遠小於最大限制)。所以,如果讓整個區域具有均勻的寫入量,就可明顯延長芯片壽命,這稱爲磨損均衡措施。 通俗意思就是硬盤塊擦寫壽命。

硬盤錯誤檢測和糾正(ECC)次數 : ECC(Error Correcting Code)的意思是“錯誤檢查和糾正”,這個技術能夠容許錯誤,並可以將錯誤更正,使讀寫操作得以持續進行,不致因錯誤而中斷。這一項的數據值記錄了磁頭在盤片上讀寫時通過ECC技術校正錯誤的次數

剩餘退役塊計數百分比     :已經被確認損壞的flush芯片,會記錄到退役塊中,將不再使用,自動將備用得映射到原壞得退役塊中。

使用備用塊數量百分比      :即上中用來替換退役塊得備份塊數量,當這個使用到100%時,硬盤將不要再使用,因爲沒有可用備用塊,在有故障塊得時候沒法替換,造成數據丟失。


 


SATA硬盤硬件監控情況:

wKioL1aUu6rTsj81AAJFpKTxFQY510.png

監控內容解釋:

被掛起得扇區數     :這個參數的數據表示了“不穩定的”扇區數,即等待被映射的扇區(也稱“被掛起的扇區”)數量。如果不穩定的扇區隨後被讀寫成功,該扇區就不再列入等待範圍,數據值就會下降。僅僅讀取時出錯的扇區並不會導致重映射,只是被列入“等待”,也許以後讀取就沒有問題,所以只有在寫入失敗時纔會發生重映射。下次對該扇區寫入時如果繼續出錯,就會產生一次重映射操作,此時重映射扇區計數(05)與重映射事件計數(C4)的數據值增加,此參數的數據值下降。


脫機無法校正得扇區計數    這個參數的數據累計了讀寫扇區時發生的無法校正的錯誤總數。數據值上升表明盤片表面介質或機械子系統出現問題,有些扇區肯定已經不能讀取,如果有文件正在使用這些扇區,操作系統會返回讀盤錯誤的信息。下一次寫操作時會對該扇區執行重映射。


磁頭加載次數       :對於過去的硬盤來說,盤片停止旋轉時磁頭臂停靠於盤片中心軸處的停泊區,磁頭與盤片接觸,只有當盤片旋轉到一定轉速時,磁頭纔開始漂浮於盤片之上並開始向外側移動至數據區。這使得磁頭在硬盤啓停時都與盤片發生摩擦,雖然盤片的停泊區不存儲數據,但無疑啓停一個循環,就使磁頭經歷兩次磨損。所以對以前的硬盤來說,磁頭起降(加載/卸載)次數是一項重要的壽命關鍵參數。 而在現代硬盤中,平時磁頭臂是停靠於盤片之外的一個專門設計的停靠架上,遠離盤片。只有當盤片旋轉達到額定轉速後,磁頭臂纔開始向內(盤片軸心)轉動使磁頭移至盤片區域(加載),磁頭臂向外轉動返回至停靠架即卸載。這樣就徹底杜絕了硬盤啓停時磁頭與盤片接觸的現象,西部數據公司將其稱爲“斜坡加載技術”。由於磁頭在加載/卸載過程中始終不與盤片接觸,不存在磁頭的磨損,使得這一參數的重要性已經大大下降。 這個參數的數據值就是磁頭執行加載/卸載操作的累計次數。從原理上講,這個加載/卸載次數應當與硬盤的啓停次數相當,但對於筆記本內置硬盤以及臺式機新型節能硬盤來說,這一項的數據量會很大。這是因爲磁頭臂組件設計有一個固定的返回力矩,保證在意外斷電時磁頭能靠彈簧力自動離開盤片半徑範圍,迅速返回停靠架。所以要讓硬盤運行時磁頭保持在盤片的半徑之內,就要使磁頭臂驅動電機(尋道電機)持續通以電流。而讓磁頭臂在硬盤空閒幾分鐘後就立即執行卸載動作,返回到停靠架上,既有利於節能,又降低了硬盤受外力衝擊導致磁頭與盤片接觸的概率。雖然再次加載會增加一點尋道時間,但畢竟弊大於利,所以在這類硬盤中磁頭的加載/卸載次數會遠遠大於通電週期計數(0C)或啓停計數(04)的數據量。不過這種加載/卸載方式已經沒有了磁頭與盤片的接觸,所以設計值也已大大增加,通常筆記本內置硬盤的磁頭加載/卸載額定值在30~60萬次,而臺式機新型節能硬盤的磁頭加載/卸載設計值可達一百萬次。

硬盤通電次數                  :字面意思

硬盤軸電機壽命                 :字面意思

硬盤使用時間百分比              :字面意思

硬盤溫度                    : 字面意思

硬盤意外斷電次數               :字面意思

底層數據讀取錯誤百分比      :底層數據讀取錯誤率是磁頭從磁盤表面讀取數據時出現的錯誤,對某些硬盤來說,大於0的數據表明磁盤表面或者讀寫磁頭髮生問題,如介質損傷、磁頭污染、磁頭共振等等。

尋道錯誤百分比       :這一項表示磁頭尋道時的錯誤率,有衆多因素可導致尋道錯誤率上升,如磁頭組件的機械系統、伺服電路有局部問題,盤片表面介質不良,硬盤溫度過高等等。

剩餘備用扇區百分比    :當硬盤的某扇區持續出現讀/寫/校驗錯誤時,硬盤固件程序會將這個扇區的物理地址加入缺陷表(G-list),將該地址重新定向到預先保留的備用扇區並將其中的數據一併轉移,這就稱爲重映射。執行重映射操作後的硬盤在Windows常規檢測中是無法發現不良扇區的,因其地址已被指向備用扇區,這等於屏蔽了不良扇區。因爲不同硬盤保留的備用扇區數並不相同),表示缺陷表已滿或備用扇區已用盡,已經失去了重映射功能,再出現不良扇區就會顯現出來並直接導致數據丟失。 這一項不僅是硬盤的壽命關鍵參數,而且重映射扇區的數量也直接影響硬盤的性能,例如某些硬盤會出現數據量很大,但當前值下降不明顯的情況,這種硬盤儘管還可正常運行,但也不宜繼續使用。因爲備用扇區都是位於磁盤尾部(靠近盤片軸心處),大量的使用備用扇區會使尋道時間增加,硬盤性能明顯下降。

主軸起旋重試次數         :主軸起旋重試次數的數據值就是主軸電機嘗試重新啓動的計數,即主軸電機啓動後在規定的時間裏未能成功達到額定轉速而嘗試再次啓動的次數。數據量的增加表示電機驅動電路或是機械子系統出現問題,整機供電不足也會導致這一問題。

主軸起旋時間健康狀態      :主軸起旋時間就是主軸電機從啓動至達到額定轉速所用的時間,數據值直接顯示時間,單位爲毫秒或者秒,因此數據值越小越好。不過對於正常硬盤來說,這一項僅僅是一個參考值,硬盤每次的啓動時間都不相同,某次啓動的稍慢些也不表示就有問題。硬盤的主軸電機從啓動至達到額定轉速大致需要4秒~15秒左右,過長的啓動時間說明電機驅動電路或者軸承機構有問題。旦這一參數的數據值在某些型號的硬盤上總是爲0,這就要看當前值和最差值來判斷了。



具體實現方法稍後會總結後寫到博客中。

 

 

=====================================================

如果你覺得該篇文章寫的不錯,並且在你的工作或者生活中帶來了幫助,那麼你願意在生活中給予我幫助嗎?如果你願意,爲我寫博客添加一些動力,可以掃下面得二維碼給予我少量得贊助。

(不管再小得贊助都是你對我得肯定,這會是我一直堅持下去得動力~! 謝謝!)

wKioL1aVw5jh26-bAACsoxneOTI460.png

這是我的微信:

wKiom1aVw3PyyIKIAAFZMmaDhWM326.png

 

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章