玩轉流量,天下無鍋——IT運維人員的九陽神功(上)

今天跟大家聊聊IT運維。

我們的生活和工作,越來越依賴於IT系統,無論支付、辦公、喫穿住行……離了互聯網和軟件,一天也玩不轉。當然,與前端應用日益豐富對應的,就是IT系統後臺的日益複雜、運維工作的日益困難。可以說,IT運維工作支撐着社會運轉的基礎,離每個人都不遙遠。

如果你是某單位的IT運維人員,那麼下面這些狀況一定不陌生:

週一,網絡部門做了負載均衡的升級,業務部門反饋偶爾出現業務響應慢,是升級的問題還是應用系統的問題?

週三,文檔系統進行了硬件遷移,用戶發現文檔系統的頁面打不開,是網絡問題?服務器問題?還是應用問題?

週日,大量用戶投訴辦理業務卡頓,系統的架構非常複雜,毛病出在哪兒?

業務部門和用戶眼巴巴等着,你怎麼辦?如果短時間找不到問題原因,搞不定系統,那這個鍋你算背定了。其實,在很多單位,IT運維部門基本就是專業背鍋俠。


尤其是,IT監控技術已經從傳統的NPM(網絡和基礎設施監控)進化到APM(應用監控),從數據爲中心進化到業務爲中心,上面三個例子,都必須由APM技術出馬搞定。

要扛住系統壓力,拯救宇宙蒼生,維護世界和平,沒一套蓋世武功怎麼行?今天,浪跡IT江湖三十年的老戲骨融哥,就給你講講IT運維技術的天下大勢,教你怎樣練就一身張無忌般百毒不侵的九陽神功,重重進階,金剛不壞。

九陽神功第一重:氤氳紫氣

當下將“九陽神功”的練法和口訣傳了無忌…丹田裏的真氣似香菸繚繞,悠遊自在,那就是所謂“氤氳紫氣”。——《倚天屠龍記》

何謂紫氣?正所謂紫氣東來,數據來源是也。要想洞察IT系統的運轉情況,監控數據的來源當然是基礎。這就是九陽神功第一重。

採集IT系統的運行信息,有哪些主流技術?大致有四種:agent、代碼植入、主動探測和今天要講的旁路流量抓包。

簡單講講前面幾種技術的弊端:agent曾經非常流行,但它要求在業務服務器上安裝和運行新的軟件,本身就會消耗服務器的性能;代碼植入,要求對被監控的應用系統進行改造,植入監控代碼,這對很多動輒幾十套、上百套應用系統的大型單位來說不可能;主動探測,與前兩者類似,也是一種消耗系統資源的方法。總之,這三種都是帶有一定“侵入性”的技術。

而旁路流量抓包技術,是近年來出現的一種新的監控技術,從網絡設備的鏡像端口把服務器之間的流量直接導出,接入單獨的監控系統,完全不消耗業務服務器的資源,也不需要做應用系統的改造,是一種非侵入性的技術。

而且數據包是最真實的,做不得一點假。通過反向工程,從數據流中重建應用系統之間的一切交互,計算指標,發現問題。

下圖就是交換機SPAN抓包技術,通過交換機流量拷貝到一個新的端口,獲取所有被監控系統之間的數據流。當然還有很多技術,如爲了提高性能可以引入多臺TAP SWITCH,以後有機會再談。

採用流量抓包技術做APM監控的,目前國外主要有Compuware、Riverbed APM等,在國內很多大型機構有使用。國內廠家中,掌握這種技術的不多,華青融天的EZSonar(鷹眼平臺)是毫無疑義的扛把子。作爲國內廠商當然具有價格實惠、定製開發靈活等優勢,而系統的品質也並不弱於國外同行。

那麼,從數據流中如何區分出各個應用系統的流量,並計算出性能指標,發現異常呢?

簡單地說,我們可以考慮四個主要性能指標:交易量、響應時間、響應率、成功率。通過從數據包中識別一筆交易,可以計算交易量;通過計算請求發起時間(T1)到反饋時間(T2)之間的時延,可以計算響應時間;通過判斷是否有T2存在,計算響應率;通過判斷反饋數據包中是否包含業務返回碼,計算成功率。

當然旁路抓包技術是複雜的,融哥的講解只是蜻蜓點水,要想get到武功精髓,各位少俠還得勤學苦練哦。

九陽神功第二重:易筋洗髓

易筋洗髓是爲深厚內功,得此功猶入無人之境。——《倚天屠龍記》

修煉到第一重,獲得了旁路數據流量,只是具備了監控的基礎,怎樣解析它,讓數據包說話,從中重建出各個應用系統之間的信息流,計算指標和發現問題,纔是挑戰所在。

經過系統的報文解析,將雜亂的數據流轉化爲規範的信息項,正所謂易筋洗髓,改頭換面,呈現出所有應用交互信息和指標的本來面目。

很多大型商業機構如銀行、證券、運營商等,動輒幾十上百套應用系統,有些是標準的商業軟件,有些是國內定製開發的行業軟件,它們的數據報文格式五花八門,猶如進了聯合國,要求監控系統必須有幾百種語言的同聲傳譯水平。而且性能也是一個關鍵挑戰,因爲每秒都有若干GB的流量洶湧而來,能否及時地解析它們,要求軟件的流量工程能力極強。

例如,上面就是一段報文。肉眼一看,如看天書 。但是如果解碼引擎合理地配置了報文解碼規則,就像大腦內置了一本強大的字典,就能解碼報文背後的應用信息,進而計算出各種指標。

有哪些常見的報文協議類型?DNS、FTP、Telnet、ICMP、Syslog、SNMP、HTTP、POP3、IMAP3、DHCP、RSYNC、NFS、RSH、MEMCHAED、REDIS、XML、Weblogic JMS、Tuxedo、XML OVER TCP、EJB、RMI、JSON、SOAP、CUPS、CTG、Oracle TNS、短信通知平臺(移動,電信,聯通)、MYSQL、DB2……

可見,對於一個APM系統的建設,應用系統報文協議的解析規則是重要一環。一方面,開發商需要具有深厚的積澱,具備豐富的報文解析規則庫,能解析常見的商業軟件;同時,建設單位需要提供自身的定製化系統的報文規則,供系統配置補充,這方面也必須方便易用。

對於第一次接觸APM系統的人來說,最驚訝的往往是業務層面的一些信息都可以被解讀,例如銀行的交易金額、程序中使用的SQL語句等等。對於掌控業務運行態勢和分析性能問題來說,這些信息是必要的。但需要特別提到的是,如果某些信息是敏感的,可以向廠商說明,對這部分信息屏蔽不做解析。

下面我們就一起來看一看,報文被解析出來以後,監控系統將如何使用和呈現。

九陽神功第三重:至陽熱氣

至陽熱氣,全力施展可將人焚爲焦炭,專門克破所有寒性和陰毒內力。——《倚天屠龍記》

天下武功,唯快不破。

如果系統已經出現了性能劣化,甚至應用已經宕機,你肯定不希望明天早晨才發現。所以,對於應用監控系統來說,性能計算和告警的時效性是關鍵,第一時間發現問題先兆,聽風辨器、及時預警、防患於未然,纔是運維的最高境界。業界往往把數據分爲熱數據(實時)、溫數據(warm)和冷數據,對於關鍵性的業務監控系統而言,對於數據的要求一定是最高熱度的,正所謂至陽熱氣。

例如,上面是一個金融單位的典型的業務監控界面,每個業務板塊和業務系統的性能指標實時刷新,當某系統出現問題時,紅色告警就會閃現。這些性能指標的更新和告警的判斷,要求後臺的計算引擎有着最強大的計算和判斷能力。

各位少俠要了解,告警的判斷是一個非常複雜的問題。如果僅僅是與靜態閾值相比較而觸發告警,是遠遠不夠的。例如,一家機構的業務量往往具有一定的時間分佈特點,如工作日較高節假日較低,上下午會各有一個交易高峯等等,只有具備智能的算法,對一段歷史時間內的指標進行動態基線比對,發現指標的浮動超出了一定範圍,才判斷爲異動,觸發告警,提請用戶注意。

告警的分級、壓縮和降噪也是一個重大問題,如果簡單地把所有告警呈現給用戶,往往數量過多,使重大問題淹沒在一堆無意義的告警之中。智能的後臺引擎,必須善於識別出真正的問題,屏蔽假告警,呈現真問題。

要做到這些,讓熱氣騰騰的性能和告警數據實時呈送到界面,就需要在秒級完成從數據流採集到報文解析到性能指標計算和告警識別。具體技術,各村都有各村的高招,華青融天通過採取不落地的內存計算方式,能夠保證數據的秒級處理,在近期一家金融機構的實測中,每秒處理的交易量超過70萬筆。

好了,恭賀各位少俠,修煉至此,各位已經具備了九陽神功三成三的功力。要想繼續進階,徹底通關,且聽融哥下期分解。

                      華青融天主力產品線

華青融天自2007年成立,一直致力於IT智慧運營的產品研發和技術服務,以AI驅動IT智慧運營,發展出一個平臺、三個業務線產品:業務運維EZSonar、安全運營EZAccur、業務洞察和行爲分析EZUBA,全力爲用戶打造一個高粘度的實時大數據平臺。

目前,公司擁有數十項發明專利、技術資質、軟件著作權以及多項自主知識產權產品,並與清華、北大、北航等院校開展產學研合作,共建“人工智能綜合實驗室” “大數據與智能安全管理聯合實驗室”。

擁有包括招商銀行、中信銀行、國開行、平安集團等在內的衆多客戶,行業遍及金融、保險、稅務、醫療、航空、軍工等十多個領域。

歡迎致電垂詢:400 065 3062

或發郵件至 [email protected]

索取公司和產品資料

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章