MegaCli64查看磁盘损坏,错误个数统计情况

 

如下,两个命令,是磁盘濒临崩坏,比如存在扇区损坏之类的事情发生。咨询的浪潮热线,报sn。他们的临界值是500,我们监控脚本是200告警。Predictive Failure Count 这个的数字比Media Error Count 这个严重,

 

# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL -NoLog| grep -i error
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 306
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0
Media Error Count: 0
Other Error Count: 0

 

# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL -NoLog| grep -C 8 "Media Error Count: 306"

Enclosure Device ID: 20
Slot Number: 3
Drive's position: DiskGroup: 0, Span: 0, Arm: 3
Enclosure position: 1
Device Id: 9
WWN: 500xxxxx45C
Sequence Number: 2
Media Error Count: 306
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SAS

Raw Size: 1.090 TB [0x8bba0cb0 Sectors]
Non Coerced Size: 1.090 TB [0x8baa0cb0 Sectors]
Coerced Size: 1.090 TB [0x8baa0000 Sectors]
#

 

 

# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL -NoLog| grep 'Predictive Failure Count'
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 499
Predictive Failure Count: 0
Predictive Failure Count: 0
Predictive Failure Count: 0

 

 

“Predictive Failure Count” 是一项磁盘监控指标,用于预测磁盘可能发生的故障。这个数值正常情况下应为“0”。如果“Predictive Failure Count”不为“0”,则表示磁盘存在异常,可能即将发生故障。然而,该数值并不能确切地告诉我们磁盘在触发告警后多久会彻底故障。

当遇到“Predictive Failure Count”不为“0”的情况时,为了数据安全考虑,建议尽快备份重要数据,并考虑更换新的磁盘。此外,也可以考虑进行进一步的磁盘诊断,以获取更多关于磁盘健康状况的信息,并决定最佳的应对策略。

请注意,不同的磁盘制造商和监控工具可能具有不同的故障预测机制,因此具体的操作和建议可能因实际情况而异。在处理此类问题时,建议参考相关的技术文档或联系技术支持人员以获取更准确的指导。

 

 

Media Error Count是一个重要的磁盘监控指标,用于表示磁盘介质错误的计数。正常情况下,这个数值应为“0”。当Media Error Count不为“0”时,这通常意味着磁盘可能存在坏道或其他介质问题。这个数值越大,表明磁盘的风险越高,可能面临更严重的故障或数据损失风险。

在实际应用中,如果检测到Media Error Count不为“0”,应该立即对磁盘进行进一步的检查和评估。可能需要进行磁盘的坏道扫描或数据备份,以避免潜在的数据丢失或硬件故障。同时,考虑更换新的磁盘也是一个明智的选择,以确保系统的稳定性和数据的安全性。

请注意,处理这类问题时,最好由有经验的系统管理员或技术支持人员来执行,以避免因操作不当而导致的数据丢失或硬件损坏。同时,定期备份重要数据也是防范数据丢失风险的重要措施之一。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章