【運維分享】全方位管理你的小機

背景知識

服務器分類-按處理器架構:

1240

PC服務器(x86服務器)

1240

基於Intel處理器的x86架構,通用開發的處理器架構。x86系統最早起源於8086芯片組,而芯片組的主處理器是由Intel和AMD所製造。

小型機

1240

小型機是指採用8-32顆處理器,超過32GB的海量內存容量,性能和價格介於PC服務器和大型主機之間的一種高性能 64 位計算機。在服務器市場中小型機處於中高端位置。習慣上用來指UNIX服務器,所以可見小型機的操作系統多是Unix系的操作系統。

大型機

1240

大型機(Mainframe)的功能、價格以及性能上都在小型機和x86服務器之上,是一種用於大規模計算的計算機系統。大型機通常用於政府、銀行、交通、保險公司和大型製造企業。

在往期的文章中我們分享瞭如何管理X86服務器,本期我們以中國銀行某分行運維監控項目爲例,介紹如何從多角度管理IBM Power小型機。

入門篇

操作系統

行業內常用的監控方式主要有SNMP 、SSH、telnet、Agent代理。SNMP配置複雜度3星,能獲取的性能指標很有限(CPU/內存/系統分區)。telnet方式配置複雜度1星,通信明文傳輸,安全性極低。SSH方式配置複雜度1星,協議本身傳輸內容密匙加密,同時產品對用戶密碼信息MD5/SHA雙重加密,安全性更可靠。SSH監控方式,除了能採集CPU利用率、內存利用率、磁盤利用率這些常用指標外,還能深入檢查系統進程資源開銷,進程可用性、網絡端口流量、文件一致性。

1240

1240

1240

1240

“相對於我以前使用的國外大廠的監控產品,讓我頭疼的Agent軟件部署工作也省去了,現在我只用輸入一個普通賬號就能快速完成系統監控;MD5方式監測系統核心文件是否有被篡改,這是我以前手工才能完成的工作,而它也幫我實現了!”這是用戶最直觀的感受。

進階篇

HMC監控

IBM硬件管理控制檯(Hardware Management Console)提供了標準的用戶接口來配置和管理Power System系列服務器以及服務器上的分區。系統管理員通過HMC對Power System服務器上的分區進行配置和日常管理。

基於HMC技術對小型機LPAR分區監控效果:

1240

邏輯分區實時顯示在線情況與資源狀態

1240

相對繁瑣的命令行操作,圖形化顯示分區情況更加清晰和直觀,配合靈活的指標閾值告警策略,LPAR分區資源實時動態一覽無餘。

專業篇

硬件日誌

對服務器的系統日誌監控,多數運維廠商基本都偏向於Syslog的信息分析,優點是容易實施。而在AIX平臺上面硬件故障是無法體現在Syslog中,所以這個時候使用常規的syslog日誌監控手段已經失去意義。

ERRPT命令專門用AIX下面的監控服務器硬件損壞的錯誤日誌查看命令。一旦系統的某個功能模塊檢測到一個錯誤或定義的需要記錄日誌的事件,則記錄到/dev/error設備,把它保存在NVRAM中,這樣可以保證即使在系統崩潰的情況下也不會丟失最新的錯誤日誌。

雖然ERRPT好處多多,但其有一個不太靈活的弊端:用more或者其他文本的查看命令來打開errlog文件我們看到的只是一對亂碼,要查閱故障信息只能通過ERRPT來實時查看。那麼,如何才能實現當ERRPT有告警信息能及時通知到運維管理員呢?

在此分享一下OneCenter功能實現的思路:

1. 第一次獲取errpt日誌,存放本地文件【Aix_curr.log】;

2. 第二次獲取epprt日誌【Aix_aft.log】,與第一次文件對比;

3. 若前後兩次文件對比結果不同,將新增差異數據放本地文件AIX_ERR.LOG,同時將最後一次獲取的ERRPT全文內容給【Aix_aft.log】,作爲下一次對比基準;

4. 循環調度,3分鐘一次文件對比;

6. 運維繫統獲取告警關鍵詞產生告警。

實例代碼:

1240

平臺告警:

1240

上圖爲磁盤故障時系統發送的硬件告警事件信息

1240

至此,基於操作系統與硬件兩方面,應該說已能較爲全面的對小型機進行主動的運維管理。即使不能讓作爲運維者的你高枕無憂,至少可以讓你睡的更安穩。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章