京东如何实现IT降本增效?—监控与FinOps和OpsGPT的落地和思考

“因为我们做了提效,说白了就是提升大家的人力,计算出来,如果提升有30%,能给部门就能节省800多万的工时的价值,能推广起来。

(许泽明:Zabbix3.4-6.0操作文档译者,多次Zabbix中国峰会讲师。本文整理自许泽明在2023Zabbix中国峰会的演讲, 点击查看B站视频 。)
大家 好,我是许泽明, 非常感谢主办方这次邀请我参加这个活动,分享我们在IT方面建设的实践,我是来自京东集团企业信息化部门,从事相关IT系统和运维的建设,非常感谢Zabbix跟蟹老板提供这么优秀的产品。
目前新的降本增效的理念盛行,围绕个主题分享。

01 技术需求背景

我理解的降本是更健康更有效的发展,通过降本给业务增加更多的营收。在降本方面我们实际上做了FinOps的理念的实践跟执行。增效正好利用大模型,目前比较火的方向,结合我们之前多年积累的一些FinOps和机器人方面积累做结合,在部门实践了这一个月的小目标,下面开始介绍。

02 FinOps是什么与实践过程

FinOps是一个云成本管理的理念,推荐了最佳实践或者一些方针,助力工程、财务、技术跟运营团队彼此合作,通过数据化的驱动来促使成本优化和效益达成,这是官方有名的一个图,在原则上、在角色上、在阶段上,在成分的模型上,有哪些指导性的方针,但是FinOps没有一个标准的产品,它是一个理念,依据此理念来践行。
首先,介绍跟监控的关系,在监控方面,其实我们要出各种的监控维度的数据,比如说利用率数据,容量数据,各种使用率数据,这些数据其实都依托于这些监控系统来去做支撑,做各种报表的维度的分析。后期做这种成本优化,需要这种数据,监控也非常重要。
Zabbix是我们重要的数据来源 ,梳理了一个Zabbix和成本运营的框架,因为我觉得每一个FinOps的实行者和经营者都会有自己家的特点,所以你要根据自己的业务场景去找一个适合自己的方案,而不是去套一方案套,因为每个场景都不太一样,所以是根据我们的信息化的建设做了一些实践。
目前我们捋了有4个方向,第一个就是成本的洞察跟通知,第二个是总成本的盘点,第三个就是成本的治理,第四个就是通过ID账单来进行精细化的管理。下面就通过建设再打通,比如说监控系统、相关数据分析系统,还有你的相关的IT运维CMDB等各个部门相关系统做联合的整治。
在实践的环节上,总结了6个的步骤,6个步骤也是作为参考,并不能代表就所有可能都按照这个步骤降低你的成本,可能都会大幅度的减少,或者你成立的资源管控都会非常好的提升。
在执行过程中可以看到中间这张图,因为在执行的半年过程中,成本的曲线降幅还是比较明显的,目前在这个组织里,属于爬行阶段,也没有到奔跑的阶段。
第一个方向就是做成本分析和洞察,识别自己家里的钱是怎么花的,因为毕竟知道摸摸底发现自己家底,这些钱是怎么花出来,才可以进行相关的成本分析跟相关的优化工作,自上而底,从大到小,分析各个成本渠道,抓这些相关的数据来源,因为组织内部涉及到各种平台对接,各种资源的整合,有上百种的资源科目在部门里面使用,也尽量用自动化手段去做,但是有些渠道真的没有办法很好的完全实现自动化,重复的活也是自愿加人工,都会有这种工作因为科目太多了。
第二个方面是CMDB, 确实是非常重要的基础设施工具或者是一个系统。在梳理资源的时候,CMDB支撑非常重要,每个公司都是每个业务或者部门有自己的一个业务模型,通过自己的业务流程和形态去建设适合自己的模型,尝试着去做一些我们自己的模型建设,通过资源的梳理跟对接,发现有一些资源在CMDB上就没办法完全做到什么情况,因为有些资源它可能需要通过一些技术的手段或者是这种流程的手段去做卡点,所以做了一种盘点任务的工作,比如说会把一些不确定的资源,或者是有些历史性残留高的推一些盘点任务到一些部门或人去做自然的梳理,这样才能洗出来这种成本风险的未知隐患。
确实工作是需要耗一些人力跟物力,确实目前没有特别好的方式。目前我们通过这种盘点任务来去驱动资源的存在。
第三个维度因为刚才有了CMDB的资源的支撑,也有了账单的数据分析,就可以去把成本的数据、监控跟容量方面数据,做一个资源的整体的宽表的关联,就可以进行相关的各种维度和后期IT账单的分析支撑,把各种数据做了一个大报表,就能做各种维度的抽查,更清晰,所以就产生了 IT账单。
第四步通过IT账单,每个月都会把这些异常的成本的用量,比如说一些异常的不合理的业务的增长,把它预警出来,通过模型或者指标的建立,去把这个指标进行统筛,或者是把这个指标任务去下达出去,给各部门进行相关的成本优化支撑。
在成本优化过程中,有些场景下你会看到,比如说存储利用率非常高,如果你不做更深度精细化的去分析,只是一个假象的利用率90%,但实际上它可能有些业务形态上做的不太合理。
比如说,在云盘的资源成本优化上,发现其实云盘有有些用户就存了大量的没有太多价值的数据,或者这种数据长时间没人清理,这种数据在分析上,直接看基础设施的领域指标都看不出来,所以要跟业务团队紧密相关,更精细化用户的信息。洗这些异常的数据,通过异常的使用量不合理的作用,跟某个人和某个部门有异常数据能把这些资源给清洗掉,能做到更精细化,而不是一个在宏观层面磁盘利用率特别低纬度的仓位。举例子,你可以通过时间维度、基础维度、流量维度或者使用次数,都可以根据各个不同的业务形态进行精细化的建设。
第五步把成本工作和优化工作进行推广起来,首先降本工作是需要领导高层的支持,如果没有支持,这些工作开展是有困难的,之后就组建相关的治理化小组,预算、财务、研发、还有运维团队组合起来,建立成本优化小组,告知相关的业务方,形成成本意识,推利用率的优化和成本异常占比高的优化,也做了异常卡点的工作,成本尽量可控,而不是让它保持程序化的扩张。通过指标化生态或部门和各种维度的量化做成可视化的工作。
第五在技术方面有很多种,通过纯技术方面去优化这些东西,可以做更多的做流程、做管理,可能会有更快速的收益,因为技术上改造其实是需要一个过程,而且过长时间也是要投入产出的。
硬盘的存储,从之前的15TB直接优化到3TB。

03 FinOps成本落地价值和思考

在落地方面总结了三个方面:

第一,大方向一定要抓大放小,因为有些投入、有些成本优化,其实费了很多人力,很多物力和研发,但是成本优化可能不理想,还是找到优化的大头,然后做成本精细化,不断的精细化分析,把成本优化掉。
第二,是执行层面,通过IT账单加盘点加优化任务的通晒,进行循环性建设。
第三,是我们未来希望不断去做的,把IT成本中心逐渐转化成一个利润中心,因为运维确实是一个花钱的大头,背了整个部门的80%左右的成本,所以我们也在不断摸索,如何把运维的价值通过这个方向去提升更多产能。
在降本工作上,经过优化目前的整个成本相对控制在一个比较平滑的曲线,不会有大幅的波动,降本工作也有它的问题,不可能连续的一直在降本,因为业务也是不断增长,所以我们一直也在思考在业务增长中怎么能让降本工作能不断的去实现价值,不能因为降本把业务的增长给它砍掉,不断的去做这件事。
第六个,我们也做反思,怎么去把成本做到事前事中事后的全生命管控跟分析,在尝试。因为在做基于应用级维度的配合跟资源的管控,而不是和部门级或者是比较粗颗粒度,做更好的预测分析,整体的管控,把预算这件事能真正的在整个企业过程中去把它剖析出来和监管起来。

04 OpsGpt是什么与实践

第一部分说的是降本,第二部分说增效。
正好引入一下ChatGPT,公司用千万的资金去激励大模型的工作,做了一些尝试。
首先定义OpsGPT,通过之前的运维机器人,结合GPT大模型的能力,结合一些运维场景的工具去打磨了一些智能化场景,去服务整个京东集团的全体员工跟终端用户。
示意图,这是一个可落地的东西,
为什么要做这件事?

因为在传统运维会有大量工单的咨询,是消耗特别大的一件事,上午有讲师分享未来也会做一个Zabbix小工助手去服务大家咨询,所以尝试把GPT融入到日常工单的处理,运维每天还要自己处理的非常大的处理工单量,也调研了一些行业,有些行业机器人是能做到40~80%的自助拦截率,有效去除重复性的咨询和重复性的工作。
技术上面正好,配合跟我们旁边的算法组,结合GPT现有模型去做一些尝试,因为大模型是全新的技术,希望通过大模型基础让我们初次能尝试。
打造了五大的智能化的场景:给大家介绍一下。

第一个,智能问答,是大模型与生俱来的天然优势,你就可以感受到 GPT的强大之处。IT海量知识和工单,通过GPT大模型 + 本地知识库,训练智能语义推理,精准高效解答。
第二个,智能工单,因为我们的工单种类大概会有100多种,通过机器人,IM群协同应用,实现一键工单,联动IT服务台转人工客服坐席团队。
第三个,智能工具,因为运维有大量的后台工具,怎么利用大模型跟工具结合,机器系统跟技术能不能把它打通。丰富便捷效率工具,大模型写脚本,泰山,IT运维工具,权限,IP, 域名,命令,研发 JDOS应用等场景插件。
第四个,智能搜索。把知识更多的去沉淀出来,知识价值去放大。集成EI搜索引擎, 尽搜眼底,可搜 人、搜IT文档、搜 IT软件、搜流程、 搜FAQ、搜百科、 搜动态、搜制度、 搜班车、搜课程。
第五个,通过IT服务,IT网络权限,电脑权限,VPN权限,邮箱,固资权IT权限流程,申请直达。
最后通过ME平台创新能力,移动&PC端&各级入口全渠道客服运营,最后1M用户触达,便捷服务。
那么怎么增效,怎么实现成本的转化,这有数据。
因为我们做了提效方面,说白了就是提升大家的人力,计算出来,如果提升有30%,能给部门就能节省800多万的工时的价值,能推广更大起来,这是一个大概的计算方式。


最后演示一下成果,做了一个机器人,做了一个千人融合,以及支持业务分析。
第二个,跟GPT做了一些运营工具的联动,人工手写慢一点,GPT写的脚本比我写的脚本好!
然后做一些智能化的脚本的生成、执行,自动化,最后一步去把它打通。
后面有账本的工作,我们也通过机器人去做一些成本相关的推送跟通知和分析,我们也通过这个来实现各种的运维小工具给它打上。
有些小的告警,在手机上直接处理,做一些简单的操作。告警与Zabbix做了一些联动,Zabbix告警的这套架构和逻辑还是非常不错的,也借鉴了Zabbix一些理念,做了一些告警的自动化的处理、升级跟排班,或者是在线的数据查看的功能。
这是一个简单的架构图.

05 OpsGpt成本落地价值和思考

落地实践跟价值,总结三个方面,这是一个全新的东西,在落地上我们也是在不断的摸索。
首先,生成式的文本和答案确实比之前的好,任何一个技术都会有它的优先性,所以在尝试用GPT的生成式进行一些人机方面提交合作。
第二,思路打开,大模型会有很多种的可能性,所以我们也在尝试着去看大模型的趋势,比如说这些年出现4个千万的720亿大模型的这种这个模型的能力,确实比之前任何一个模型都已经超越了,当然我们也在尝试,不断结合一些自己的特点去找到适合自己的东西。
第三,把数据沉淀,把工具的价值沉淀出来,在做相关的工具的时候,把运营的价值和运营工作通过各种智能化手段把它连通起来,实现点线面的体系建设。

以上是我的分享,谢谢大家。
延深阅读
京东基于Zabbix告警治理优化实践长文回顾(含PPT)
实操|基于OceanBase打造更稳定的Zabbix监控系统

本文分享自微信公众号 - Zabbix开源社区(china_zabbix)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章