vivo AI计算平台kubernetes集群弹性伸缩实践

原創

2021-12-08 15:08

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"1、背景"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"2018 年底，vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点，着手建设 AI 计算平台。经过两年的持续迭代，平台建设和落地取得了很大进展，成为 vivo AI 领域的核心基础平台。平台从当初服务深度学习训练为主，到现在演进成包含 VTraining、VServing、VContainer 三大模块，对外提供模型训练、模型推理和容器化能力。VContainer 是计算平台的底座，基于 Kubernetes 构建的容器平台，具备资源调度、弹性伸缩、零一混部等核心能力。VContainer 容器集群有数千个节点，拥有超过 100PFLOPS 的 GPU 算力。集群里同时运行着上千个 VTraining 的训练任务和上百个 VServing 的推理服务以及数百个在线服务项目。本文主要分享了 VContainer 容器平台在服务弹性伸缩部署方面的实践和落地。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":" 2、整体架构"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"业务容器化之后可以使用容器在服务器上高密度部署，以此提高集群整体的资源利用率。业务稳定运行一段时间之后，我们发现集群整体的资源利用率仍然存在巨大的提升空间，当前集群资源使用主要有以下问题："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（1）在线服务申请资源时考虑到突发流量和服务稳定性，预留大量的buffer资源，造成资源申请量普遍远超实际使用量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（2）大部分在线服务的潮汐现象、波峰波谷特征非常明显，保留过多常态资源造成巨大浪费。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（3）开发和运维评估和配置的资源规格不合理，并且动态更新不及时。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"为了进一步提升集群整体的资源利用率、降低服务器成本，我们调研了kubernetes HPA弹性伸缩并进行了落地实践。"}]},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/81\/81d3ce2ed89a550ab106e55b9d121a28.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"kubernetes 将业务运行环境的容器组抽象为 Pod 资源对象，并提供各种各样的 workload（deployment、statefulset 等）来部署 Pod，同时也提供多种资源对象来解决 Pod 部署过程中的弹性伸缩和资源供给问题。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"2.1 kubernetes autoscaling"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"kubernetes autoscaling提供多种机制来满足Pod自动伸缩需求："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（1）Pod级别的自动伸缩：包括"},{"type":"link","attrs":{"href":"https:\/\/kubernetes.io\/docs\/tasks\/run-application\/horizontal-pod-autoscale\/","title":null,"type":null},"content":[{"type":"text","text":"Horizontal Pod Autoscaler"}],"marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（HPA）和"},{"type":"link","attrs":{"href":"https:\/\/github.com\/kubernetes\/autoscaler\/tree\/master\/vertical-pod-autoscaler","title":null,"type":null},"content":[{"type":"text","text":"Vertical Pod Autoscaler"}],"marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（VPA）。其中HPA会基于kubernetes集群内置资源指标或者自定义指标来计算Pod副本需求数并自动伸缩，VPA会基于Pod在CPU\/Memory资源历史使用详情来计算Pod合理的资源请求并驱逐Pod以更新资源配合；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（2）Node级别的自动伸缩："},{"type":"link","attrs":{"href":"https:\/\/github.com\/kubernetes\/autoscaler\/tree\/master\/cluster-autoscaler","title":null,"type":null},"content":[{"type":"text","text":"Cluster Autoscaler"}],"marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（CA）会综合考虑Pod部署挂起或集群容量等信息确定集群节点资源并相应调整集群Node数量。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"本文聚焦于kubernetes集群Pod级别的弹性伸缩实践和落地。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"2.2 KEDA"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"kubernetes HPA原生支持依据CPU\/Memory资源利用率弹性伸缩，并在autoscaling\/v2beta2版本中通过"},{"type":"link","attrs":{"href":"https:\/\/github.com\/kubernetes\/community\/blob\/master\/contributors\/design-proposals\/instrumentation\/custom-metrics-api.md","title":null,"type":null},"content":[{"type":"text","text":"custom.metrics.k8s.io"}],"marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":" API支持基于自定义资源的弹性伸缩。在HPA实践落地过程中，仅仅依赖CPU\/Memory利用率弹性伸缩无法满足业务在多指标扩缩、弹性伸缩稳定性方面的诸多需求，为此，我们重点调研了kubernetes HPA自定义指标弹性伸缩。开源社区主要有2个相关项目，一个是 "},{"type":"link","attrs":{"href":"https:\/\/github.com\/kubernetes-sigs\/prometheus-adapter","title":null,"type":null},"content":[{"type":"text","text":"prometheus-adapter"}],"marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"，另外一个是"},{"type":"link","attrs":{"href":"https:\/\/github.com\/kedacore\/keda","title":null,"type":null},"content":[{"type":"text","text":"KEDA"}],"marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"，最终我们采用KEDA作为弹性伸缩系统的基座，主要考虑到如下优势点："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（1）功能丰富：内嵌CPU\/Cron\/Prom多种伸缩策略，原生支持缩容至零；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（2）扩展性好：解耦被伸缩对象（支持\/scale子资源即可）和伸缩指标，提供强大的插件机制和抽象接口（scaler + metrics adapter），增加伸缩指标非常便利；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（3）维护性好：设计简洁、功能统一、组件单一提供良好的可维护性；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（4）社区强大：CNCF官方项目，微软和RedHat强力支持。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"我们基于KEDA构建kubernetes集群弹性伸缩系统，整体流程图如下所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（1）集群Pod部署会采用多种workload（deployment、argoRollout、statefulset等），KEDA均支持这些伸缩对象，最终实际生效对象其实是\/scale子资源；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（2）所有的弹性伸缩对象统一使用KEDA管理，包括HPA内置支持的CPU\/Memory利用率弹性伸缩、自定义指标弹性伸缩。我们基于KEDA强大的插件机制扩展支持了业务亟需的GPU利用率弹性伸缩和HTTP\/RPC QPS弹性伸缩；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（3）测试集群和预发集群部署业务默认开启缩容至零特性，以此自动回收长期闲置的测试服务所占用的计算资源；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（4）基于KEDA在自动伸缩多策略、扩缩时效性、扩缩耗时、成功率、监控告警等稳定性方面做了一系列工作"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/55\/5509b9334bd9d447e87200f5b59e2261.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"3、多指标弹性伸缩"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"业务方在发布平台做业务部署时，可以直接白屏化配置合适的弹性伸缩策略，整体界面如下所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/8d\/8d8df24d646c811341d0aabec656807a.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"弹性伸缩策略整体分为两大部分："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（1）常规弹性伸缩：包括CPU利用率、内存利用率、GPU利用率、平均QPS，并且伸缩策略都支持配置伸缩区间（最小副本数 <= 伸缩目标副本数 <= 最大副本数）。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（2）定时伸缩：资源使用具有强周期规律、潮汐特征明显的业务可以配置定时伸缩，应用副本数在对应时间段内保持在指定数量。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"3.1 CPU\/Memory默认弹性伸缩"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"CPU\/Memory弹性伸缩中，我们只使用平均利用率类型的伸缩指标，整体数据流程如图所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/6b\/6be65ee9563746decebcbee226028399.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"3.2 Cron定时伸缩"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"互联网在线业务通常都有明显的流量波峰波谷现象，潮汐特征非常明显，针对这种资源使用具有周期规律的业务，我们通常采用定时伸缩。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"kubernetes HPA计算ExternalPerPodMetric 副本数：当前利用率\/每个Pod目标利用率"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"KEDA CronHPA中将 \"每个Pod目标利用率\" 硬编码固定为1，当前利用率设置为定时扩缩容时间段的副本数。这个巧妙的设计可以将普通的资源利用率弹性伸缩和定时伸缩统一起来，非常便利。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"3.3 GPU弹性伸缩"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"集群部分业务会使用GPU资源做AI模型推理计算，这种场景下业务方重点关注GPU利用率，希望可以基于GPU资源利用率做动态伸缩。我们基于KEDA scaler插件机制开发了gpu-scaler，很好的满足了业务方需求。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"GPU弹性伸缩中整体数据流程如图所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/b1\/b1ce74eb511342573434b255ae865c0b.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"3.4 QPS弹性伸缩"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"集群部分业务方重点关注服务QPS（HTTP\/RPC），希望可以基于服务QPS做动态伸缩。我们基于KEDA scaler插件机制开发了qps-scaler，很好的满足了业务方需求。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"QPS弹性伸缩中整体数据流程如图所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/fc\/fc8f0fd8f4437249fbb09764ef8ba946.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"4、缩容到零"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"业务方在CICD发布平台进行流水线部署通常涉及多个运行环境，通常有测试环境 → 预发环境 → 生产环境，其中测试环境主要用来开发联调，预发环境主要用来小流量验证和预部署校验。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"业务方在生产集群部署业务之后，测试环境和预发环境的实例副本通常会闲置，这会浪费一部分的计算资源，尤其是使用到GPU稀缺资源的业务。为此，我们在测试环境和预发环境默认开启了缩容到零特性，缩容规则如下："}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"4.1 Java业务"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"当且仅当业务容器同时满足以下条件："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"a 容器创建时间点至今大于48小时，即2天之内新部署的服务不会缩容到零；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"b 基于请求数做缩容到零：PaaS 调用链查询API获取的 64小时内请求总数等于0，即64小时内业务在调用链系统内无任何请求数据；"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"4.2 GPU业务"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"当且仅当服务容器同时满足以下条件："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"a 容器创建时间点至今大于48小时，即2天之内新部署的服务不会缩容到零；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"b 基于GPU利用率做缩容到零：容器平台prometheus获取的 2天内GPU利用率峰值小于1%，即2天内业务GPU利用率峰值小于1%；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"某些服务使用了特殊的自定义应用层协议（例如非HTTP\/Dubbo RPC协议的CPU服务），这些服务暂不适合缩容至零，容器平台提供选项来关闭这个功能。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"5、分时复用"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"在线业务弹性缩容会提升业务维度的资源利用率，但是对于整个计算集群，由于缩容腾出的资源并没有充分利用，集群维度的资源利用率并没有得到相应的提升。基于此现状，我们开发了弹性控制器，让集群内的弹性资源充分的分时复用，整个流程如下所示："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（1）弹性控制器基于kubernetes controller标准范式开发，一直监听在线业务的扩缩容事件，并且自动迁移在离线资源池机器；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（2）在线业务缩容时，弹性控制器确保节点空载状态（整机部署的业务缩容之后直接空载）之后会将在线节点自动迁移到离线任务队列，离线业务部署控制器会自动提交并运行一些训练任务；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（3）在线业务扩容时，弹性控制器会尽快供应所需的计算资源，首先会启用buffer资源池机器，如若不足会继续驱逐离线训练任务（综合考虑离线训练任务定义的优先级、最大可驱逐副本数、整机驱逐代价等众多因素）然后将离线节点自动迁移到在线业务队列；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/65\/653cce7a0bac10e5008f66702a74f727.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"6、稳定性建设"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"弹性伸缩的主要目标在于提升计算资源利用率，降低服务器资源成本。同时，弹性伸缩涉及应用副本数的动态增减，系统稳定性至关重要，需要确保应用副本符合预期地动态伸缩、保障应用负载在合理范围、确保服务的SLO高可用性。为此，我们围绕弹性伸缩做了一系列工作。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"6.1 弹性伸缩可观测（历史记录、事件通知）"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"容器平台基于prometheus指标数据实现弹性伸缩的可观测，主要包括伸缩动作的时间点、服务副本数变化详情、服务伸缩时可用性、实例伸缩的整体耗时以及结果详情，这些指标统一聚合在统一展板内，非常清晰的展现弹性伸缩详情以及高度联动的服务可用性详情。这些指标的历史数据都通过分布式存储系统管理，便于回溯历史记录。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"应用实例动态伸缩的过程中，会出现一些异常情况，例如资源紧缺导致扩容长时间夯住、缺失健康检查机制导致扩容时流量有损、缩容策略不合理导致应用负载上涨影响服务可用性，针对这些异常情况，我们完善了相应的监控指标以及告警机制，异常事件实时通知到相应业务方。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/f1\/f11fc4a23527d532adee18be3916b9e2.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"6.2 实例数上下限+多指标混合扩缩"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"kubernetes HPA提供实例副本上下限选项保证弹性伸缩一直在确定范围区间内，开发运维在发布平台配置弹性伸缩策略时会强制要求设置最小副本数和最大副本数。容器平台提供服务运行详情的历史监控图，开发运维以此可以非常便利地确定服务副本的合理区间。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"部分业务方在使用弹性伸缩的过程中发现只依据单指标扩缩会不准确，针对这种场景，我们推荐业务方使用多指标混合扩缩，例如将CPU利用率弹性伸缩和定时伸缩混合使用，既可以满足流量请求和资源使用具有周期性规律的场景，又可以满足流量突发的场景。kubernetes HPA针对每个伸缩策略都会计算出一个目标副本数，最终取其最大值，尽可能确保服务稳定性。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"6.3 快扩慢缩防抖动"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"kubernetes HPA实现细节里提供一些机制来控制扩缩容速率来尽量保证整个过程的平滑，避免实例副本的剧烈抖动："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"a 扩缩决策：HPA控制器每隔15秒（--horizontal-pod-autoscaler-sync-period）执行一次扩缩决策，如果当前指标数据值与前一次的变化比例小于10%（--horizontal-pod-autoscaler-tolerance）则维持当前副本数不变，避免副本数因为指标小幅变化而剧烈震荡波动；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"b 扩容：扩容逻辑原则是“快扩”，即扩容尽可能快，其中扩容逻辑的常量因子都是硬编码，无法自定义，在某些场景不符合业务需求；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"c 缩容：缩容逻辑原则是“慢缩”，即缩容尽可能慢，缩容决策决定之后需要等待5min（--horizontal-pod-autoscaler-downscale-stabilization-window）然后才执行实际的缩容操作，这个5min是硬编码的全局默认缩容时间窗口；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"kubernetes 1.18版本（"},{"type":"link","attrs":{"href":"https:\/\/v1-18.docs.kubernetes.io\/docs\/reference\/generated\/kubernetes-api\/v1.18\/#horizontalpodautoscalerbehavior-v2beta2-autoscaling","title":null,"type":null},"content":[{"type":"text","text":"官方文档"}],"marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}]},{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"）支持针对服务维度扩缩容的精细化控制，实现不同场景下业务所需的扩缩容灵敏度和速率。我们可以以此特性来调整扩容\/缩容的时间窗口，实现不同的快扩慢缩、快扩快缩、慢扩慢缩、慢扩快缩行为。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"6.4 健康检查确保流量无损"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"服务实例动态伸缩的过程中，需要确保流量无损。kubernetes提供健康检查机制和优雅下线机制来提升服务的可用性。弹性伸缩落地过程中，容器平台会检查服务的健康检查配置并建议合理配置，确保新扩容实例健康检查通过之后才开始接受流量。同时容器平台也会检查服务的优雅下线配置，对于配置缺失的服务，容器平台会自动注入默认的PreStop lifecycle配置，确保老实例在下线过程中不会影响当前正在处理的请求"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":" "}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"7、后续发展规划"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"目前容器平台弹性伸缩已经陆续在众多业务落地，正式环境大约40%业务开启弹性伸缩，预发环境大约97%业务开启缩容至零，集群CPU资源均值利用率从不到10%提升到20%左右，GPU资源均值利用率从10%左右提升到25%左右，极大降低服务器资源成本。后续弹性伸缩平台会继续发展演进，进一步降本增效。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"7.1 服务画像智能推荐"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"当前业务方在使用弹性伸缩需要一定的心智负担，例如弹性伸缩策略需要配置服务动态伸缩的最小副本数、最大副本数、目标利用率、定时区间段、资源请求量等，这些指标数据难以精确配置，需要开发和运维依靠历史经验去自行判断，并且时效性较差。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"针对这个问题，容器平台会建立服务画像模块，结合服务资源使用详情的历史数据、CPI指标时序数据、OOM事件等信息，使用类似Google Autopilot的时间滑动窗口+半衰减指数直方图算法来自动预测和智能推荐弹性伸缩相关的诸多配置，进而便于开发运维精准配置弹性伸缩策略，进一步提升资源利用率，同时也大大减轻运维成本和心智负担。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"7.2 在离线混部"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"当前容器平台仅支持在线业务和离线任务分时复用机器资源，运维成本高，资源提升有限，后续我们会和内核、资源调度等团队通力合作探索在离线混部方案"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"7.3 稳定性建设"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"弹性伸缩稳定性对业务高可用性至关重要，容器平台会持续建设稳定性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（1）服务画像全方位探测和精准预测负载异常、干扰压制、服务受损等异常，及时做出驱逐、扩容（水平扩容或垂直扩容）等决策；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（2）弹性伸缩系统和容量Quota系统合作，智能精细化管控业务资源容量，解决弹性扩容过程中的容量受限问题；"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":"（3）弹性伸缩系统会推进周边系统进一步提升弹性扩容卡慢的问题，例如镜像预热和分发加速、原地发布、应用启动提速等。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":"作者简介："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"王杰，曾就职于阿里巴巴，目前是vivo人工智能部门计算平台组资深工程师。关注领域：kubernetes、容器、Service Mesh等云原生技术。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"color","attrs":{"color":"#000000","name":"black"}}],"text":" "}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

ACK One x OpenKruiseGame 全球游戏服多地域一致性交付最佳实践

作者：劉秋陽、蔡靖前言在當今全球一體化的經濟環境下，數字娛樂產業正日益成爲文化和商業交流的有力代表。在此背景下大量遊戲廠商嘗試遊戲出海並取得了令人矚目的成績，許多遊戲以全球同服架構吸引着世界各地廣泛的玩家羣體。遊戲全球化部署不僅擴大了單

2024-04-30 21:12:18

2024年DataOps趋势预测：AI不会取代数据工程师

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

云原生周刊：K8s 中的服务和网络｜ 2024.4.29

開源項目推薦 k8s-image-swapper k8s-image-swapper 是 Kubernetes 的一個變更 Webhook，它將鏡像下載到自己的鏡像倉庫，並將鏡像指向該新位置。它是 docker pull-through p

2024-04-30 10:48:10

华为云云原生FinOps解决方案，释放云原生最大价值

華爲云云原生FinOps通過可視化的成本洞察和成本優化，幫助用戶精細用雲以提升單位成本的資源利用率，實現降本增效目標企業上雲現狀：上雲趨勢持續加深，但云上開支存在顯著浪費根據Flexer 2024年最新的一項調查顯示，當前有超過7

2024-04-29 22:33:46

1 名工程师轻松管理 20 个工作流，创业企业用 Serverless 让数据处理流程提效

作者：嶽洋、陳德全、劉靜娜北京語勢科技有限公司成立於 2023 年 6 月，語勢科技定位爲“智能投資時代的主題入口”，在資管行業從以機構爲核心轉向以用戶爲核心的變革時代，通過打造主題投資引擎，賦能普惠投資一體化，打造以投資者和資管機構爲主

2024-04-28 21:12:22

嘉为蓝鲸WeOps与DeepFlow强强联合，共同打造拓展性运维平台

直達原文：嘉爲藍鯨WeOps x DeepFlow | 強強聯合，共同打造拓展性運維平臺運維管理在企業信息化建設中扮演着至關重要的角色，嘉爲藍鯨WeOps一體化運維平臺致力於爲客戶提供更全面、智能的運維能力。在探索創新的過程中，我們深刻

2024-04-26 23:23:22

华为云Stack8.3面向香港正式发布，六大亮点激发云上跃迁

本文分享自華爲雲社區《華爲雲Stack8.3面向香港正式發佈，六大亮點激發雲上躍遷》，作者：華爲雲頭條。 2024年4月23日，在華爲雲香港峯會2024上，華爲混合雲副總裁胡玉海面向香港市場發佈華爲雲Stack8.3，提供110+本地

2024-04-26 10:33:21

RocketMQ 之 IoT 消息解析：物联网需要什么样的消息技术?

前言：從初代開源消息隊列崛起，到 PC 互聯網、移動互聯網爆發式發展，再到如今 IoT、雲計算、雲原生引領了新的技術趨勢，消息中間件的發展已經走過了 30 多個年頭。目前，消息中間件在國內許多行業的關鍵應用中扮演着至關重要的角色。隨着數

2024-04-24 23:40:04

“企业创新新引擎”数据库专项赋能会，让云原生技术普惠千行百业！

本文分享自華爲雲社區《“企業創新新引擎”數據庫專項賦能會，讓雲原生技術普惠千行百業！》，作者： GaussDB 數據庫。 4月19日，由福州軟件園科技創新發展公司和華爲技術有限公司聯合主辦的HCDG城市行福州站——“企業創新新引擎”數據庫專

2024-04-24 10:32:53

日志架构演进：从集中式到分布式的Kubernetes日志策略

當我們沒有使用雲原生方案部署應用時採用的日誌方案往往是 ELK 技術棧。這套技術方案比較成熟，穩定性也很高，所以幾乎成爲了當時的標配。可是隨着我們使用 kubernetes 步入雲原生的時代後， kubernetes 把以往的操作系統

2024-04-23 11:47:10

【案例+PPT】普元信息臧一超：海量数据下“流批一体”的数据平台演进路线

“數據中臺新範式”雲端峯會，深入解析湖倉一體、批流一體、治理與運營“三位一體”的數據中臺新範式特徵，普元信息數智研究院副院長臧一超在峯會發表演講《海量數據下的高性能流批一體數據開發平臺》。 18分鐘完整回放視頻見文末，拎幾個特別精彩的內

2024-04-23 11:43:51

世界读书日 | 开发者必读书单重磅来袭，华为云DTSE专家天团力荐

本文分享自華爲雲社區《世界讀書日 | 開發者必讀書單重磅來襲，華爲雲DTSE專家天團力薦》，作者：華爲雲社區精選。春色恰如許，讀書正當時。讀書，就像解鎖一把神祕鑰匙，爲開發者洞開新世界的大門，賦予他們破譯複雜難題的能力、挑戰未知領域的

2024-04-23 10:32:58

云原生周刊：Kubernetes v1.30 发布｜ 2024.4.22

開源項目推薦 pv-migrate pv-migrate 是一個 CLI 工具/kubectl 插件，可輕鬆將一個 Kubernetes 的內容遷移 PersistentVolumeClaim 到另一個 Kubernetes。 Claudi

2024-04-22 22:46:27

活动回顾丨云原生开源开发者沙龙北京站回放 & PPT 下载

“零信任架構” 是一種安全概念，它要求在任何時候不對任何請求默認信任，無論它的來源內部還是外部。服務安全性已成爲企業的核心關切，4 月 13 日，雲原生開源開發者沙龍在北京順利開展。阿里雲一線工程師圍繞《微服務面臨的安全挑戰、趨勢與解決方

2024-04-22 21:12:01

从一次 RPC 请求，探索 MOSN 的工作流程

SOFA 六週年，歡迎來玩本週六 4.20 上海螞蟻集團 S 空間掃碼免費報名活動，來與 MOSN 社區負責人線下交流～ MOSN 社區歡迎您的加入！ MOSN 官網：https://mosn.io/ MOSN Github：http

2024-04-18 22:46:41

24小時熱門文章

DAPPER 事务 TRANSACTION

最新文章

最新評論文章