爲什麼現代企業無法真正實現組合式監控? 頂 原

【編者按】本文作者爲 Sahil Khanna,文中介紹了現代企業常用的監控工具與模式,同時指出了其中的不足,以及更爲完善的解決方案。本文系 OneAPM 工程師編譯整理。

我喜歡參加行業活動和會議,因爲在這些地方可以見到財富 1000 強的 IT 領導人,而且我總喜歡問他們同一個問題——“你們都在使用哪些工具?” 這是個很有趣的問題,因爲從他們的回答中我發現,大型 IT 企業目前所使用的工具數量多得驚人,而且我問過的所有人都在使用不同的方式配置環境。

雖然大部分企業正在使用 Splunk、APPDynamics 或 NewRelic、OneAPM,但是他們使用這些工具支持業務服務的方式截然不同,這可能是因爲不同企業的每一項業務服務和出現的問題類型都完全不同。下圖中的工具是我在數百遍的詢問中經常聽到的一部分:

爲什麼現代企業無法真正實現組合式監控? 技術分享 第1張

我還喜歡問的第二個問題是——“你是怎樣把各個監控工具裏獲得的信息聯繫起來的?” 從他們的回答中我發現兩個共同點,分別與傳統企業和數字化企業的監控配置有關,而且這兩個共同點解釋了一個更加嚴重的問題——爲什麼客戶總是比監控工具更早地發現問題。

##傳統企業還在用遺留頂層管理系統(MoM)死撐 我說的“傳統企業”,主要是指金融服務、管理服務供應商、製造業、電信公司和聯邦等企業組織。雖然你在看這篇文章的時候,它們可能正在經歷重大的數字化轉型,但是這些企業的 IT 環境、流程和許多工具實在是太“傳統”了,因爲它們的工具基本上都購買於上個世紀末和本世紀初,當時 IBM、HP 和 CA 等 MoM 供應商爲運營管理整合了企業級套裝。這些套裝從概念上而言在當時很先進,但實際上只是各種不同層級的工具集成的“大雜燴”。它們可以執行基礎的降噪和事件關聯,但是是通過基於規則的方式進行的,也就是說,你必須在問題發生前就預測到這個問題。可以想象這種要求會產生怎樣的後果。而且,這些套裝還很難配置和管理,要想使它們正常工作,還得再投入幾百萬美元和幾百個工時。

現在,轉眼到了 2016 年,這些工具依舊是傳統企業的核心 IT 管理層,究其原因,是由“廠商鎖定”這個堪稱天才的商業策略導致的。雖然傳統企業已經認識到新一代監控工具的價值,也花了巨資購買最好的工具集來提升服務質量。但是,與這些企業的IT運維團隊交流時,我發現他們顯然沒有充分利用各個工具,而只是將一部分事件流發送至 IBM Netcool 或 CA Spectrum 之類的工具中供運維團隊查看。他們被迫使用很小一部分事件,只能獲得有限的可見性,因爲遺留 MoM 沒有以下功能:

1)擴展 2)集成新工具(沒有標準的 API) 3)自動適應基礎設施更改(需要手動建立或維護規則)

下圖是我最近交流過的一個大型傳統企業的監控圖示。

爲什麼現代企業無法真正實現組合式監控? 技術分享 第2張

他們有40多種監控工具、1000 多個應用程序,每天生成約 200,000 個事件。他們使用 CA Spectrum 作爲頂層管理系統,但是由於可擴展性和集成的限制,Spectrum 每天只能從 Splunk、Keynote 和Solarwinds 接收約 30,000 個事件。也就是說,事件覆蓋率只有 15%!那這樣的配置是怎樣爲他們工作的呢?好吧,對此他們表示,只有 7% 至9% 的事件是工具檢測出來的,其他的都是客戶發現的。你可以想像這些企業面臨過多少次 SLA 違規、收入損失以及與日俱增的 IT 成本問題。

要想更深入地瞭解和解決這個問題,推薦閱讀 Intellyx 的傑森•彭博寫的“受夠了遺留監控工具?該換成可組合的 IT 監控了!”

##缺乏管理層的數字化企業也好不到哪兒去 我認爲,“數字化”就是軟件即服務(SaaS)、媒體、電子商務、零售、在線、獨立軟件開發商,等等。與傳統企業的關鍵不同點在於,這些公司從誕生起就是數字化的,而且從一開始就沒在遺留 MoM 解決方案上花過一分錢。這個特點使它們天生就具有靈活性和敏捷性,但同時也存在嚴重的缺陷。

我交流過的數字化企業爲了滿足自身獨特的需求,通常都構建了一個龐大且最好的監控生態系統,但是卻沒有管理層將系統結合起來,現在他們開始感受到以下問題的痛苦了:

1. 沒有重複數據刪除功能。可能你覺得刪除重複數據不重要,但是你得明白,即使事件總量只減少 25%,運維團隊的查看量也會減少 25%。這就大大減少了工作量,顯著提高了生產力。

2. 沒有關聯功能。如果沒有一個工具自動告訴你,有兩個或多個事件實際上與同一個問題相關,那麼你可能會讓不同的團隊獨自研究同一個問題,因而浪費了寶貴的時間。

雖然 IBM、CA、BMC 和 HP 的遺留工具需要繁重的人工勞動才能實現這些功能,但是沒有管理層的數字化企業則完全與關聯功能帶來的益處失之交臂。

據我所見,數字化企業普遍使用電子郵件充當管理控制工具。下圖是我曾交流過的一家數字化企業的監控示意圖。

爲什麼現代企業無法真正實現組合式監控? 技術分享 第3張

該企業使用電子郵件作爲中央事件管理控制檯。由於他們的支持團隊很小,於是決定每天只發送來自 SiteConfidence Sythetics 的 500個事件,至於其他事件則全部忽略。這家數字化企業每天生成約 40,000 個事件,也就是說,他們只查看了約1%的事件。支持團隊會仔細查看最關鍵的事件,人工刪除重複數據並關聯事件或告警,然後再適當地挖掘其他工具。但是這個過程極度耗費人力,而且又相當低效,最爲嚴重的是,他們缺乏對整個 IT 環境的可見性。當被問到他們的監控工具是怎樣發現問題的時候,他們告訴我“大多數”事件都是客戶而不是工具發現的。

在某些特定情況下,有些公司已經形成了自己的管理解決方案,但是我很少聽到它們的負責人表示對服務質量有絕對的把握。

##現代事件管理工具可實現組合式監控 次時代數據監控與管理工具,如 OneAPM Cloudinsight 產品,可以幫助創業企業、服務提供商等實現最好的IT基礎組件與其他數據監控,每天處理數十億事件,以獲得整個 IT 環境的完全可見性。從本質上而言,次時代監控管理工具可以實現一體化監控與管理,可以讓你通過標籤管理任意數據,機器,從而確保最優的服務質量和性能。

本文系 OneAPM 工程師編譯整理。想閱讀更多技術文章,請訪問 OneAPM 官方技術博客

本文轉自 OneAPM 官方博客

原文地址:https://www.moogsoft.com/whats-new/todays-enterprise-failed-achieve-composable-monitoring/。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章