在企業信息化建設的過程中我們經常會遇到以下場景:
場景一 無法整體感知使用情況
領導:帆軟的報表系統上線這麼長時間了,不知道咱們是不是真正用起來了啊?平時大概有多少人能用到?訪問頻次怎麼樣?花大量人力開發的那些模板有多少用起來了?
業務人員:這個......之前還沒統計過,我去查一下,也許後臺會有這些數據的......
場景二 無法前置暴露性能問題
領導:現在我們報表系統內存怎麼樣?夠不夠用?CPU整體什麼水平?需要換個性能更優的CPU嗎?
業務人員:額,總體上應該是夠的吧,好像偶爾會內存較高、CPU持續暴漲,之後我們記錄下這些情況呢......
領導:現在報表有沒有什麼明顯問題,都是新招的年輕人開發的,質量不一定有保證。
業務人員:這個現在也很難衡量,只有說出現問題了再去回溯,確實做不到預見性的判斷......
場景三 缺乏排查宕機問題條件
生產報表使用者:信息部,報表系統宕機了,趕緊重啓,整條生產線都停了!
業務人員:好的,正在重啓,稍後我問一下帆軟的技術支持看看什麼原因......
帆軟技術支持:您好,請問宕機之後有導出dump文件嗎?還是直接重啓了啊?
業務人員:沒時間,都是生產一線,不可用時間越短越好,不能等導完dump再重啓。
帆軟技術支持:是這樣,排查下來應該是內存溢出的問題,但是沒有dump文件無法分析具體是哪張報表導致的,很抱歉。
(於是宕機的問題很難等得到有效解決,陷入一旦宕機、立即重啓、無法分析的死循環......)
場景四 無法快速獲得系統基本數據
業務人員:你好,想問一下,這個XX插件爲啥在我們的服務器上用不起來啊,我看在我本地是可以的。
帆軟技術支持:您好,請問您的jdk版本是多少?現在的jar版本是多少啊?
業務人員:稍等哈,我去查查......
以上問題在很多企業中都會遇到,給企業運維人員造成一定的困擾。能不能有一個完整的運維報告,一下子解決上述場景的所有問題呢?
在帆軟面前,答案是肯定的。
衆所周知,系統的穩定和高效是業務成功使用的基礎,要達到這樣的效果離不開專業的運維團隊,但往往運維有着較高的技術門檻和人力要求,並且傳統的人工運維有着週期長、無法24小時工作的侷限。
但無需擔心,這些困難都可以通過帆軟雲端運維解決——上傳雲端運維數據,經雲端計算就可以獲得完整、全面的系統健康檢查分析報告!
雲端是指帆軟爲客戶提供的雲中心分析計算引擎,雲端運維相比於本地運維具有大計算、零成本、低門檻、高成長等等優勢,帆軟希望通過雲端運維和本地運維兩種方式豐富運維功能,發揮各自優勢,爲系統的穩定可用保駕護航,目前已有327個客戶加入了雲端運維的大家庭。
看得見的新功能開發 ,我們在努力做
1、訪問次數&用戶數
想感知有多少用戶訪問了系統、頻次如何?
2、訪問模板數
不清楚開了那麼多模板當中有多少是能被用到的?
3、內存走勢
想確認是否有內存溢出的危險時刻?
4、CPU走勢
想了解系統壓力最大時的穩定運行風險?
5、運維指標
和技術人員定位、確認問題時,連繫統的基本信息都無法快速提供?
6、業務指標
想對比一些新模板上線後,系統使用的月度指標是否有提升?
看不見的老功能優化,我們在持續做
在已經上線一段時間的模板性能風險分析&宕機情況分析這兩個功能上面,我們也未滿足於現有的成績,依然不斷驗證準確性、改進算法,力求爲用戶提供更可靠的數據。
1、整體概覽
- 得分量化,橫向比較系統月度穩定性波動情況
- 關鍵指標(宕機次數、重啓次數)一目瞭然,重中之重優先展示
2、宕機情況分析
分析宕機時間、問題模板、數據量、耗時、問題數據集、可能存在的問題等
3、模板性能風險分析
分析問題模板及數據集,不僅僅在宕機發生後補救,出現不良苗頭就及時處理
4、效果驗證
通過對部分有條件導出dump文件的客戶進行判斷結果對比,雲端運維的宕機、模板分析準確性已有了可觀的提升(案例過多,不做全部展示,且保護用戶隱私,對模板、數據集信息打碼)
dump分析結果:
雲端運維報告分析結果:
現今我們已經取得了這樣的成果,但我們仍在爲提升哪怕一個百分點而努力
- 是否宕機及宕機時間判斷準確率(所有宕機場景):76%
- 是否宕機及宕機時間判斷準確率(算法覆蓋的內存異常、CPU異常場景):87%
- 內存異常場景宕機模板判斷準確率(報告所推薦的不多於三張可能造成宕機問題的模板覆蓋到dump分析定位到模板的概率):73%
這一切努力爲的只是真正幫到客戶解決問題(不做全部展示,保護用戶隱私,不公佈客戶信息)
不易察覺的小細節,我們在用心做
除功能以外,在您不易感知的交互、操作等細節問題上,我們也在默默提升......
- 更直觀的說明圖——一張流程圖讓您瞭解雲端運維的含義
- 更貼心的報告demo預覽——方便您快速瞭解報告提供的內容、信息
- 更便捷的多月範圍選擇——批量操作時無需多次操作,一步搞定
- 更快速的一鍵上傳——無需繁瑣步驟,一鍵點擊直接生成報告
- 更省心的上傳——取消了勾選以後還需保存的操作,不再因爲交互的問題增加困擾
注:此優化在12.04及以後jar版本
擺脫數據安全困擾,無後顧之憂
在功能優勢的同時,帆軟對於雲端的特性也兼顧了數據安全方面的考慮,確保使用沒有後顧之憂。
- 數據脫敏——只涉及產品改良和應用運維所需數據,絕不涉及業務數據
- 數據披露——用戶可以隨時看到上傳了哪些數據
- 保密協議——如有需求,可以簽署保密協議(支持線上簽署)