如何設計與構建 FinOps 流程、團隊、體系與目標

作者:景祁

前言

近幾年隨着雲計算的迅猛發展,企業 IT 數字化轉型也已經進入“深水區”,對於用好雲的關注度逐漸提升。《Flexera 2023 年雲計算現狀報告》顯示,雲成本管理優化躍居雲管理團隊下年度待辦清單的榜首。FinOps(財務運營)作爲一種新的操作模型逐漸進入雲管理團隊的視野。

FinOps,即  “Finance” + “DevOps” ,是一種企業雲財務管理文化和實踐的結合。在雲計算的背景下,FinOps 的核心目標是使組織能夠實現雲資源的成本可預測性、透明度和責任性,從而確保在追求技術敏捷性和創新的同時,也能夠控制和優化支出。

依據 FinOps 基金會的定義, “FinOps 是一種不斷髮展的雲財務管理學科和文化實踐,通過幫助工程師、財務、技術和業務團隊協作制定數據驅動的支出決策,使組織能夠獲得最大的業務價值。”

FinOps 整體流程

企業 FinOps 實施不是一蹴而就的項目,而是關係到企業內部管理機制的體系化工程,是一個反覆迭代和持續運營的過程。要 FinOps 實施取得預期的效果,企業需要在準備階段構建內部 FinOps 體系和團隊,完成文化層面的轉變,並建立清晰的 FinOps 戰略目標。在實施階段,企業需要建立全面的資源和成本監控,選擇合適的成本優化策略,並形成長效運作機制,使雲上成本可以有效管控、持續控制。

實施 FinOps 前的準備階段

對於計劃實施 FinOps 的企業而言,FinOps 的準備階段是必不可少的。準備階段涉及的不僅是策略制定,更是意識和文化的轉變,它決定了 FinOps 實施能否順利進行並取得預期的效果。在準備階段,主要需關注三個要素:文化普及、戰略同頻、責任共擔。

3.1 文化普及:推廣 FinOps 的價值觀

企業要實施 FinOps,首先要在文化層面做好鋪墊,保證每個團隊成員都能理解並接受 FinOps 理念。

尤其在雲原生場景下,資源和成本具有較高動態性,依賴運維、業務、財務等多個職能團隊協同管理,這導致更需要每個成員都培養良好的成本意識,在日常工作中主動考慮成本。企業需要使用適當的方式推廣 FinOps 文化,持續建立全員的成本意識。可採取的方式包括:

  • 組織全面的培訓活動: 通過舉辦線上課程、研討會,向所有員工介紹 FinOps 的基本原則和實踐,確保全員都能理解其對企業的影響和價值。
  • 宣傳優秀案例: 利用內部論壇、新聞等渠道,持續分享 FinOps 的成功案例和節省成本的技巧,推動優秀經驗的沉澱和複製。
  • 定期舉行成本管理會: 回顧和覆盤成本管理中遇到的一些問題,從而推動持續改進。

普及 FinOps 文化不僅有助於降低雲成本,還能提升企業對市場變化的適應性和決策的敏捷度。通過跨部門的合作和教育,FinOps 文化可以成爲推動公司向更高效、透明和創新方向發展的動力。

3.2 戰略同頻:確立共同的 FinOps 目標

在確定 FinOps 作爲需普及的企業文化後,企業還需在戰略層面達成一致。這需要從組織的高層到基層的成員之間形成共識,確立共同的 FinOps 目標,並將這些目標與公司的整體戰略緊密對齊。目標的清晰性、上層的支持、部門之間的協作以及基於成本控制的激勵機制,都是確保企業 FinOps 戰略同頻並有效實施的關鍵要素。

  • 制定清晰的戰略目標: 確定實施 FinOps 的長期和短期目標,以及達到這些目標的戰略方法。
  • 上層支持: 確保公司上層領導理解並支持 FinOps,將其視作推動公司發展的重要因素。
  • 跨部門協同: 整合不同部門的資源和力量,形成聯動效應,共同推動成本優化戰略的實施。
  • 改進考覈和激勵措施: 將成本管理能力納入員工的績效考覈指標,以此鼓勵所有人積極參與成本控制。根據實際情況合理設置優化目標,如資源閒置率、成本節省額度等,對各部門資源使用進行統一價值量化,按照週期內優化成果進行適當獎罰措施。

3.3 責任共擔:建立全員參與的責任體系

在 FinOps 實施之前,企業還需要構建全員共擔的責任體系,以確保全員在實施過程中能夠承擔起相應的責任,共同推動 FinOps 目標的達成。

  • 角色與任務明確化: 明確每個角色在 FinOps 實施中的職責和任務,確定業務、運維、財務等團隊在其中需承擔的責任。
  • 反饋與溝通機制: 建立定期回顧機制,評估 FinOps 實施的成效,及時調整和優化策略。
  • 構建跨職能團隊: 創建由各個部門代表組成的 FinOps 團隊,專門負責監控、分析和優化雲成本,並能夠從技術、財務等角度共同推進成本優化。該團隊需要有完備的知識體系,具備項目管理、數據科學、財務分析和軟件/基礎設施開發等能力,可以對照成本優化目標來衡量各部門的執行和交付能力。

實施 FinOps 的準備階段是確立組織內部文化、戰略和責任認同的重要一步。通過普及 FinOps 文化,確保公司戰略與成本優化同頻,以及構建全員共擔責任體系,可以爲後續 FinOps 實踐打下良好基礎。

FinOps 實施階段

4.1 成本洞察

成本洞察是實施 FinOps 的第一步,同時也貫穿在整個 FinOps 流程。組織需要構建成本監控系統,重點能力包括:業務成本分攤、資源監控、成本預測等。

尤其在雲原生架構下,資源的共享和動態性也給成本分攤帶來了新的技術挑戰,組織一般可以藉助雲原生 FinOps 工具解決業務成本分攤的問題。ACK 成本套件也提供了成本洞察大盤以及成本數據導出 API 的能力,用戶可以直接使用維度豐富的成本洞察大盤,也可以基於成本 API 構建內部 FinOps 系統。具體請參見:如何按照部門/應用拆分集羣成本 [ 1]

在實施階段,組織的不同角色由於職責不同,在成本洞察時也有各自的視角。

  • IT 主管或財務從全局視角查看總成本是否在預算範圍內,成本趨勢是否正常。
  • IT 運維人員在成本異常時,從資源層面檢查是否資源付費策略可以優化,或查看造成成本異常的部門或業務,向下驅動業務團隊檢查。
  • 業務研發人員檢查對應業務的資源使用情況,分析成本升高原因,評估優化策略。

4.2 成本優化

在成本優化階段,組織需要根據資源水位評估可優化空間,再根據業務情況確定優化策略。阿里雲 ACK 集羣可採用的典型優化策略,按照是否業務感知可分爲以下方面:

4.2.1 選擇業務無感的優化策略

對於企業常見因資源利用率低導致的浪費,或者希望在不調整架構的前提下優化成本,我們可以從資源分配或付費策略方面進行優化。

  • 優化應用的資源分配:通過資源畫像 [ 2] 調整資源申請/限制值,優化調度策略。
  • 調整雲資源採購策略:調整實例規格組合,優化付費策略,清理閒置資源。

4.2.2 選擇業務感知的優化策略

使用合適的彈性能力: 彈性伸縮是 ACK 被廣泛採用的功能,典型的場景包含在線業務彈性、大規模計算訓練、深度學習 GPU 或共享 GPU 的訓練與推理、定時週期性負載變化等。從伸縮維度劃分,可包括工作負載伸縮:典型如容器水平伸縮(HPA) [ 3] 、容器定時伸縮(CronHPA) [ 4] 、容器智能伸縮(AHPA) [ 5] ;節點伸縮:典型如節點自動伸縮 [ 6] 、virtual-node 無服務資源交付 [ 7] 、即時彈性 [ 8]

使用混部能力: 典型如動態資源超賣 [ 9] ,充分挖掘集羣中已分配但未使用的資源量;或通過在離線混部 [ 10] 同時部署在線業務和離線應用,充分利用資源。

4.3 成本控制

成本控制是 FinOps 治理流程中非常重要的一環。完成成本洞察和成本優化後,可以通過成本控制來保障整個成本治理的流程處於可控狀態下,防止因成本治理週期較長,導致集羣和應用的費用出現超過限額或者增速過快的現象。

結語

對企業來說,FinOps 不僅僅是一個技術方案,而是一種更靈活地處理雲成本優化的方式。儘管技術是優化成本的主要手段,但技術人員無法完全評估其中的業務價值,這也是 FinOps 理念中宣導全員參與,並建立跨職能團隊的主要原因。此外,FinOps 也強調數據驅動業務決策,明確的制度體系和持續的投入,可以讓企業在追求技術敏捷性和創新的同時,也能夠控制和優化支出。

相關鏈接:

[1] 如何按照部門/應用拆分集羣成本

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/cost-analysis-overview

[2] 資源畫像

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/resource-profiling

[3] 容器水平伸縮(HPA)

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/horizontal-pod-autoscaling

[4] 容器定時伸縮(CronHPA)

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/cronhpa

[5] 容器智能伸縮(AHPA)

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/ahpa-overview-1

[6] 節點自動伸縮

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/auto-scaling-of-nodes

[7] virtual-node 無服務資源交付

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/deploy-the-virtual-node-controller-and-use-it-to-create-elastic-container-instance-based-pods

[8] 即時彈性

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/instant-elasticity

[9] 動態資源超賣

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/dynamic-resource-overcommitment

[10] 在離線混部

https://help.aliyun.com/zh/ack/ack-managed-and-ack-dedicated/user-guide/overview-of-the-colocation-of-different-types-of-workloads

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章