京東如何實現IT降本增效?—監控與FinOps和OpsGPT的落地和思考

“因爲我們做了提效,說白了就是提升大家的人力,計算出來,如果提升有30%,能給部門就能節省800多萬的工時的價值,能推廣起來。

(許澤明:Zabbix3.4-6.0操作文檔譯者,多次Zabbix中國峯會講師。本文整理自許澤明在2023Zabbix中國峯會的演講, 點擊查看B站視頻 。)
大家 好,我是許澤明, 非常感謝主辦方這次邀請我參加這個活動,分享我們在IT方面建設的實踐,我是來自京東集團企業信息化部門,從事相關IT系統和運維的建設,非常感謝Zabbix跟蟹老闆提供這麼優秀的產品。
目前新的降本增效的理念盛行,圍繞個主題分享。

01 技術需求背景

我理解的降本是更健康更有效的發展,通過降本給業務增加更多的營收。在降本方面我們實際上做了FinOps的理念的實踐跟執行。增效正好利用大模型,目前比較火的方向,結合我們之前多年積累的一些FinOps和機器人方面積累做結合,在部門實踐了這一個月的小目標,下面開始介紹。

02 FinOps是什麼與實踐過程

FinOps是一個雲成本管理的理念,推薦了最佳實踐或者一些方針,助力工程、財務、技術跟運營團隊彼此合作,通過數據化的驅動來促使成本優化和效益達成,這是官方有名的一個圖,在原則上、在角色上、在階段上,在成分的模型上,有哪些指導性的方針,但是FinOps沒有一個標準的產品,它是一個理念,依據此理念來踐行。
首先,介紹跟監控的關係,在監控方面,其實我們要出各種的監控維度的數據,比如說利用率數據,容量數據,各種使用率數據,這些數據其實都依託於這些監控系統來去做支撐,做各種報表的維度的分析。後期做這種成本優化,需要這種數據,監控也非常重要。
Zabbix是我們重要的數據來源 ,梳理了一個Zabbix和成本運營的框架,因爲我覺得每一個FinOps的實行者和經營者都會有自己家的特點,所以你要根據自己的業務場景去找一個適合自己的方案,而不是去套一方案套,因爲每個場景都不太一樣,所以是根據我們的信息化的建設做了一些實踐。
目前我們捋了有4個方向,第一個就是成本的洞察跟通知,第二個是總成本的盤點,第三個就是成本的治理,第四個就是通過ID賬單來進行精細化的管理。下面就通過建設再打通,比如說監控系統、相關數據分析系統,還有你的相關的IT運維CMDB等各個部門相關係統做聯合的整治。
在實踐的環節上,總結了6個的步驟,6個步驟也是作爲參考,並不能代表就所有可能都按照這個步驟降低你的成本,可能都會大幅度的減少,或者你成立的資源管控都會非常好的提升。
在執行過程中可以看到中間這張圖,因爲在執行的半年過程中,成本的曲線降幅還是比較明顯的,目前在這個組織裏,屬於爬行階段,也沒有到奔跑的階段。
第一個方向就是做成本分析和洞察,識別自己家裏的錢是怎麼花的,因爲畢竟知道摸摸底發現自己家底,這些錢是怎麼花出來,纔可以進行相關的成本分析跟相關的優化工作,自上而底,從大到小,分析各個成本渠道,抓這些相關的數據來源,因爲組織內部涉及到各種平臺對接,各種資源的整合,有上百種的資源科目在部門裏面使用,也儘量用自動化手段去做,但是有些渠道真的沒有辦法很好的完全實現自動化,重複的活也是自願加人工,都會有這種工作因爲科目太多了。
第二個方面是CMDB, 確實是非常重要的基礎設施工具或者是一個系統。在梳理資源的時候,CMDB支撐非常重要,每個公司都是每個業務或者部門有自己的一個業務模型,通過自己的業務流程和形態去建設適合自己的模型,嘗試着去做一些我們自己的模型建設,通過資源的梳理跟對接,發現有一些資源在CMDB上就沒辦法完全做到什麼情況,因爲有些資源它可能需要通過一些技術的手段或者是這種流程的手段去做卡點,所以做了一種盤點任務的工作,比如說會把一些不確定的資源,或者是有些歷史性殘留高的推一些盤點任務到一些部門或人去做自然的梳理,這樣才能洗出來這種成本風險的未知隱患。
確實工作是需要耗一些人力跟物力,確實目前沒有特別好的方式。目前我們通過這種盤點任務來去驅動資源的存在。
第三個維度因爲剛纔有了CMDB的資源的支撐,也有了賬單的數據分析,就可以去把成本的數據、監控跟容量方面數據,做一個資源的整體的寬表的關聯,就可以進行相關的各種維度和後期IT賬單的分析支撐,把各種數據做了一個大報表,就能做各種維度的抽查,更清晰,所以就產生了 IT賬單。
第四步通過IT賬單,每個月都會把這些異常的成本的用量,比如說一些異常的不合理的業務的增長,把它預警出來,通過模型或者指標的建立,去把這個指標進行統篩,或者是把這個指標任務去下達出去,給各部門進行相關的成本優化支撐。
在成本優化過程中,有些場景下你會看到,比如說存儲利用率非常高,如果你不做更深度精細化的去分析,只是一個假象的利用率90%,但實際上它可能有些業務形態上做的不太合理。
比如說,在雲盤的資源成本優化上,發現其實雲盤有有些用戶就存了大量的沒有太多價值的數據,或者這種數據長時間沒人清理,這種數據在分析上,直接看基礎設施的領域指標都看不出來,所以要跟業務團隊緊密相關,更精細化用戶的信息。洗這些異常的數據,通過異常的使用量不合理的作用,跟某個人和某個部門有異常數據能把這些資源給清洗掉,能做到更精細化,而不是一個在宏觀層面磁盤利用率特別低緯度的倉位。舉例子,你可以通過時間維度、基礎維度、流量維度或者使用次數,都可以根據各個不同的業務形態進行精細化的建設。
第五步把成本工作和優化工作進行推廣起來,首先降本工作是需要領導高層的支持,如果沒有支持,這些工作開展是有困難的,之後就組建相關的治理化小組,預算、財務、研發、還有運維團隊組合起來,建立成本優化小組,告知相關的業務方,形成成本意識,推利用率的優化和成本異常佔比高的優化,也做了異常卡點的工作,成本儘量可控,而不是讓它保持程序化的擴張。通過指標化生態或部門和各種維度的量化做成可視化的工作。
第五在技術方面有很多種,通過純技術方面去優化這些東西,可以做更多的做流程、做管理,可能會有更快速的收益,因爲技術上改造其實是需要一個過程,而且過長時間也是要投入產出的。
硬盤的存儲,從之前的15TB直接優化到3TB。

03 FinOps成本落地價值和思考

在落地方面總結了三個方面:

第一,大方向一定要抓大放小,因爲有些投入、有些成本優化,其實費了很多人力,很多物力和研發,但是成本優化可能不理想,還是找到優化的大頭,然後做成本精細化,不斷的精細化分析,把成本優化掉。
第二,是執行層面,通過IT賬單加盤點加優化任務的通曬,進行循環性建設。
第三,是我們未來希望不斷去做的,把IT成本中心逐漸轉化成一個利潤中心,因爲運維確實是一個花錢的大頭,背了整個部門的80%左右的成本,所以我們也在不斷摸索,如何把運維的價值通過這個方向去提升更多產能。
在降本工作上,經過優化目前的整個成本相對控制在一個比較平滑的曲線,不會有大幅的波動,降本工作也有它的問題,不可能連續的一直在降本,因爲業務也是不斷增長,所以我們一直也在思考在業務增長中怎麼能讓降本工作能不斷的去實現價值,不能因爲降本把業務的增長給它砍掉,不斷的去做這件事。
第六個,我們也做反思,怎麼去把成本做到事前事中事後的全生命管控跟分析,在嘗試。因爲在做基於應用級維度的配合跟資源的管控,而不是和部門級或者是比較粗顆粒度,做更好的預測分析,整體的管控,把預算這件事能真正的在整個企業過程中去把它剖析出來和監管起來。

04 OpsGpt是什麼與實踐

第一部分說的是降本,第二部分說增效。
正好引入一下ChatGPT,公司用千萬的資金去激勵大模型的工作,做了一些嘗試。
首先定義OpsGPT,通過之前的運維機器人,結合GPT大模型的能力,結合一些運維場景的工具去打磨了一些智能化場景,去服務整個京東集團的全體員工跟終端用戶。
示意圖,這是一個可落地的東西,
爲什麼要做這件事?

因爲在傳統運維會有大量工單的諮詢,是消耗特別大的一件事,上午有講師分享未來也會做一個Zabbix小工助手去服務大家諮詢,所以嘗試把GPT融入到日常工單的處理,運維每天還要自己處理的非常大的處理工單量,也調研了一些行業,有些行業機器人是能做到40~80%的自助攔截率,有效去除重複性的諮詢和重複性的工作。
技術上面正好,配合跟我們旁邊的算法組,結合GPT現有模型去做一些嘗試,因爲大模型是全新的技術,希望通過大模型基礎讓我們初次能嘗試。
打造了五大的智能化的場景:給大家介紹一下。

第一個,智能問答,是大模型與生俱來的天然優勢,你就可以感受到 GPT的強大之處。IT海量知識和工單,通過GPT大模型 + 本地知識庫,訓練智能語義推理,精準高效解答。
第二個,智能工單,因爲我們的工單種類大概會有100多種,通過機器人,IM羣協同應用,實現一鍵工單,聯動IT服務檯轉人工客服坐席團隊。
第三個,智能工具,因爲運維有大量的後臺工具,怎麼利用大模型跟工具結合,機器系統跟技術能不能把它打通。豐富便捷效率工具,大模型寫腳本,泰山,IT運維工具,權限,IP, 域名,命令,研發 JDOS應用等場景插件。
第四個,智能搜索。把知識更多的去沉澱出來,知識價值去放大。集成EI搜索引擎, 盡搜眼底,可搜 人、搜IT文檔、搜 IT軟件、搜流程、 搜FAQ、搜百科、 搜動態、搜制度、 搜班車、搜課程。
第五個,通過IT服務,IT網絡權限,電腦權限,VPN權限,郵箱,固資權IT權限流程,申請直達。
最後通過ME平臺創新能力,移動&PC端&各級入口全渠道客服運營,最後1M用戶觸達,便捷服務。
那麼怎麼增效,怎麼實現成本的轉化,這有數據。
因爲我們做了提效方面,說白了就是提升大家的人力,計算出來,如果提升有30%,能給部門就能節省800多萬的工時的價值,能推廣更大起來,這是一個大概的計算方式。


最後演示一下成果,做了一個機器人,做了一個千人融合,以及支持業務分析。
第二個,跟GPT做了一些運營工具的聯動,人工手寫慢一點,GPT寫的腳本比我寫的腳本好!
然後做一些智能化的腳本的生成、執行,自動化,最後一步去把它打通。
後面有賬本的工作,我們也通過機器人去做一些成本相關的推送跟通知和分析,我們也通過這個來實現各種的運維小工具給它打上。
有些小的告警,在手機上直接處理,做一些簡單的操作。告警與Zabbix做了一些聯動,Zabbix告警的這套架構和邏輯還是非常不錯的,也借鑑了Zabbix一些理念,做了一些告警的自動化的處理、升級跟排班,或者是在線的數據查看的功能。
這是一個簡單的架構圖.

05 OpsGpt成本落地價值和思考

落地實踐跟價值,總結三個方面,這是一個全新的東西,在落地上我們也是在不斷的摸索。
首先,生成式的文本和答案確實比之前的好,任何一個技術都會有它的優先性,所以在嘗試用GPT的生成式進行一些人機方面提交合作。
第二,思路打開,大模型會有很多種的可能性,所以我們也在嘗試着去看大模型的趨勢,比如說這些年出現4個千萬的720億大模型的這種這個模型的能力,確實比之前任何一個模型都已經超越了,當然我們也在嘗試,不斷結合一些自己的特點去找到適合自己的東西。
第三,把數據沉澱,把工具的價值沉澱出來,在做相關的工具的時候,把運營的價值和運營工作通過各種智能化手段把它連通起來,實現點線面的體系建設。

以上是我的分享,謝謝大家。
延深閱讀
京東基於Zabbix告警治理優化實踐長文回顧(含PPT)
實操|基於OceanBase打造更穩定的Zabbix監控系統

本文分享自微信公衆號 - Zabbix開源社區(china_zabbix)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章