雲平臺屢次停擺,核心系統事故頻發?您的運維繫統該升級了!

3月3日凌晨,阿里雲出現宕機故障,受宕機故障影響,華北不少互聯網公司 APP、網站紛紛癱瘓,一大波程序員、運營和運維不得不從被窩裏爬起來幹活。網友“上海藍盟網絡夏立成”調侃,“阿里雲一年一宕機,今年特別早”。

然而日常生產、生活對應用依賴程度逐漸增加導致宕機頻率和成本都在升高,人工運維投入產出卻在下降。根據專業評測機構 downdetector.com 統計,2018年,Facebook 系統全年宕機200次,Youtube 宕機 140 次,Google 宕機 100 次。每次宕機損失至少 100 萬美元!某些事故對企業的影響將是災難性的,對於金融、互聯網、電信等信息化成熟度較高的行業更是如此。
雲平臺屢次停擺,核心系統事故頻發?您的運維繫統該升級了!
軟件系統帶來的複雜度提升,還需要軟件來應對。人工智能(AI)技術結合運維(Ops)場景,已成爲目前業界看到的唯一應對之道 -AIOps。然而,落地 AIOps 並不簡單,首先需要從改進現有運維流程,升級監管裝備入手。當前,大多企業的人工爲主,基於 Zabbix、Nagios、Prometheus 等開源、商業數據採集系統建設的諸多監控採集展現數據的方式,會隨着監控對象和數據採集量激增而失控。
隨着信息系統加速升級演進,運維也正在遵循人肉運維>工具化運維>自動化運維>智能化運維轉變歷程。因此,新一代運維體系,理念上首先需要站在運維人員角度將複雜變簡單,人工轉智能。要達成此目標,我們需要完成以下四階段運維繫統升級。
雲平臺屢次停擺,核心系統事故頻發?您的運維繫統該升級了!
應用全景監控
整合分散、孤島監控系統數據,實現全景監控視圖:整合已經建設的基礎設施、網絡、中間件、應用監控系統,形成以風險感知爲核心的監控系統。
雲平臺屢次停擺,核心系統事故頻發?您的運維繫統該升級了!

運維大數據分析
轉數據監控爲信息監控,基於大數據分析能力構建運維信息檢索平臺:融合指標、日誌、代碼執行堆棧、網絡嗅探數據,全量存儲、索引、融合海量低價值密度的運維大數據,爲運維人員提供便捷的信息查詢入口。

雲平臺屢次停擺,核心系統事故頻發?您的運維繫統該升級了!
智能化運維
用算法積累運維經驗,轉人工數據篩查爲智能化分析:利用知識庫、規則引擎、概率圖模型等手段積累運維專家經驗,集成異常檢測、因果關係判斷、根因定位分析等算法引擎輔助人工篩選海量數據,探測、解釋異常。
雲平臺屢次停擺,核心系統事故頻發?您的運維繫統該升級了!

運維可視化
運維數據可視化,自然人機交互:將實時、歷史信息可視化,利用更直觀、自然的人機交互界面連接人腦和計算機,實現敏捷高效運維。

東軟 RealSight APM請添加鏈接描述 應用智能運維平臺在傳統應用性能管理(Application Performance Management, APM)類產品基礎上升級設計理念,引入先進技術,打造了全景化監控視圖,運維大數據分析、智能化異常檢測分析等能力。爲保障政府、企業數字信息系統高效、穩定運行提供必要支撐。
如今,產品已經在社保、醫療、汽車、運營商、金融、快消、保險等多個行業客戶得到應用。服務於寶馬中國、寶馬金融、中國航空、蒙牛集團、宜昌三峽運、上海教委、北京東城區、中翼航食、吉林人社等。
產品在行業中的應用場景
互聯網
全景監控態勢,保障客戶數字體驗,提升客戶轉化率
金融
預測規避風險,提升核心系統穩定性,降低運維成本
汽車
監控車聯網車機端、雲端全鏈條健康狀態,提升行車安全保障
醫療
提升患者就醫客戶數字體驗,爲互聯網醫療建設提供運維支撐
政府
保障信息系統穩定,爲民生工程、公共管理提供高效可靠數字平臺支撐

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章