深度 | 容器規模化落地企業的最佳途徑 容器規模化落地已成爲企業發展“必修課” 容器規模化落地企業要過哪些難關 阿里雲幫助企業一站式實現容器規模化落地

隨着雲原生時代的發展,傳統 IT 基礎設施加速雲化,雲原生化成爲雲上的必然趨勢。作爲雲原生代表技術之一,容器技術可幫助企業提升 IT 架構的敏捷性,加速應用創新,幫助企業更加靈活地應對商業發展中的不確定性。疫情期間,在線教育、音視頻、公共健康等行業出現了大幅度的增長。一些基於雲計算和容器技術的公司,很好地把握住了業務快速增長的機遇,實現了自身的跨越式發展。

容器規模化落地已成爲企業發展“必修課”

疫情加速了企業數字化的發展進程,低延時和高併發的線上場景頻繁出現在企業日常經營中,業務創新的需求也在倒逼企業不斷運用新興技術手段。現如今,Kubernetes 逐漸成爲雲原生時代的基礎設施,容器技術被廣泛應用於人工智能、大數據、區塊鏈、邊緣計算等場景,作爲輕量化的計算載體,爲更多的場景賦予高度的彈性與敏捷性。在日常經營和業務創新的雙重壓力之下,越來越多的企業從小規模試用到全面擁抱容器規模化落地,以保障企業業務能夠健康且長遠發展

據信通院《2020 年中國雲原生用戶調查報告》顯示,60% 以上的用戶已在生產環境中應用容器技術,近八成用戶的生產需求需要 1000 及以上的節點規模滿足,超過 13% 的用戶容器規模已超過 5000 節點,9% 的用戶容器規模大於 10000 節點。隨着雲原生技術的進一步普及,越來越多的企業核心業務切換到容器,企業生產環境容器集羣規模呈現爆發式增長趨勢,容器規模化落地已成爲企業發展“必修課”。目前開源版本 Kubernetes 最多可以支撐 5 千節點及 15 萬 Pod,已經無法滿足日益增長的業務需求。

容器規模化落地企業要過哪些難關

大規模容器集羣可以提供更大的業務負載能力,更高的流量突發能力,更加高效的集羣管理方式。作爲雲原生領域的實踐者和引領者,阿里雲率先實現了單集羣 1 萬節點1百萬 Pod 的規模突破,相比於社區版 Kubernetes,單集羣節點數在社區基礎上提高了 2 倍,Pod 數提升了 6.7 倍。基於服務百萬客戶的經驗,阿里雲沉澱了“容器規模化落地四步走”的路徑方法,可幫助企業克服容器規模化落地過程中的難關,輕鬆應對不斷增加的規模化需求。

第一步:如何判斷自身是否需要容器集羣規模化?

當企業面臨流量突發型業務、複雜計算型業務、需進一步提高運維效率等業務或 IT 訴求,單集羣的容量成爲當前掣肘發展的瓶頸。例如基因計算、在線秒殺等業務,會在短時間會產生大量的負載,對單集羣能容納的計算資源提出了嚴峻的挑戰,亟需單個集羣能夠支持大規模的節點來批量運行 Pod。基於此,企業就要開始考慮集羣擴容了,不過追求集羣規模大,並不是一針見效的萬能“銀彈”, 企業需要根據自身業務發展特性,優化集羣能力實現業務價值,盲目追求集羣規模化將擴大整個故障域的風險。

第二步:容器規模化不是簡單擴大規模的大小,如何自下而上實現一整套體系優化,打通任督二脈?

Kubernetes 作爲雲原生時代的操作系統,其自身及其部署的雲環境是非常複雜龐大的,因此容器規模化是從底層雲資源到上層應用的一整套優化體系。企業用戶需要重點解決三個層面的優化:

  1. 在雲產品層面打破對雲資源配額的限制;
  2. 在集羣組件層面提升資源規模化的天花板;
  3. 在 Kubernetes 資源層面優化集羣配置策略來保證資源規模化能力。

第三步:容器規模化後難以保障原有性能不受損,如何實現性能進一步提升,做個“靈活的巨人”?

容器集羣規模被放大 N 倍之後,對存儲、集羣網絡、應用分發等性能都提出了巨大挑戰,例如大規模集羣數據中心內網絡流量通常較大,網絡延遲與抖動的問題也會隨之被放大,影響集羣網絡傳輸效率和集羣穩定。還有大規模集羣下批量發佈更新應用的常規場景,1w 個節點瞬時的鏡像拉取會產生巨大的網絡衝擊,給鏡像服務和網絡帶寬帶來了巨大的壓力。容器規模化的初衷是提供更強大的技術支撐力,不僅要保障原有性能,還需要進一步提升整體性能

企業用戶可重點從四個方面入手優化:

  • Node&Pod 規模化效率
  • 網絡效率(吞吐與延遲)
  • DNS 解析效率
  • 鏡像加速

第四步:容器規模化後最驚心動魄的難關是“穩定”

如果說集羣規模化是第一步,那麼穩定的運行上萬節點的集羣纔是更加驚心動魄的,龐大的系統最重要的就是控制故障域,防止雪崩。相對於規模而言,容器規模化後的穩定性更加重要,因爲大規模集羣的恢復不是簡單的重啓就能夠解決的,一旦雪崩開始,整體崩潰不可避免,嚴重影響業務接續性。對於企業而言,大規模集羣的穩定性就是業務在線的安全性。企業用戶重點需要考慮事前止血預案、資源索引和系統組件優化、以及監控所有節點隨時啓動自愈流程。

阿里雲幫助企業一站式實現容器規模化落地

針對大規模集羣在企業落地的種種難關,阿里雲基於 ACK Pro 提供了企業級的容器集羣管理能力,在 APIServer 和調度器上提供了大量性能優化,打破資源規模限制、提升性能天花板、保證集羣穩定性。通過自研高性能容器網絡 Terway,優化 Pod 延遲 30%,降低大規模 Service 的性能開銷,不僅可解決大規模集羣的網絡瓶頸問題,而且提供幾乎雲上原生的網絡性能,使得集羣響應更迅速。企業級鏡像倉庫 ACR EE 支持獨享存儲,提供按需加載鏡像的能力,降低啓動時間 60%,可解決大規模節點拉取鏡像慢的問題。整合阿里雲存儲、網絡和安全能力,阿里雲一站式爲企業提供容器規模化運行的最佳性能:更加高效的網絡轉發、更強擴展能力的存儲、更高效的應用與鏡像分發、更穩定的大規模集羣管理

值得一提的是,阿里雲在近日 2020 雲原生產業大會中,成爲首家通過信通院容器規模化性能測試的雲服務商,獲得最高級別認證—“卓越”級別。在信通院的容器規模化測評中,阿里雲容器服務的滿負載壓力測試、網絡延時、網絡性能損耗等多項測評結果,在參與測評的廠商中遙遙領先。 基於此,阿里雲擁有足夠彈性的“服務能力空間”,可根據企業業務量身定製滿足當前所需的容器集羣服務,除了支撐阿里集團內部核心系統容器化上雲和阿里雲的雲產品本身,也將多年的大規模容器技術以產品化的能力輸出給衆多圍繞雙十一的生態公司和 ISV 公司。通過支撐來自全球各行各業的容器雲,阿里雲容器服務已經沉澱了支持單元化架構、全球化架構、柔性架構的雲原生應用託管中臺能力,管理了超過 1 萬個以上的容器集羣,提供企業級可靠服務。

阿里雲擁有國內規模最大的容器集羣、最豐富的雲原生產品家族和最全面的開源貢獻,提供雲原生裸金屬服務器、雲原生數據庫、數據倉庫、數據湖、容器、微服務、DevOps、Serverless 等超過 100 款創新產品,覆蓋新零售、政務、醫療、交通、教育等各個領域。阿里雲容器服務是國內唯一連續兩次入選 Gartner 2019 年和 2020 年《競爭格局:公共雲容器服務》報告的廠商,阿里雲覆蓋 Serverless Kubernetes、服務網格、容器鏡像等九項產品能力,與 AWS 平齊,產品豐富度領先 Google、微軟、IBM 和 Oracle 四家廠商。

隨着容器技術的逐漸普及,如何評價容器性能高低成爲業內普遍關注的議題。針對行業痛點,中國信息通信研究院發佈的業內首個超大規模容器性能測評結果,客觀真實反映了容器集羣組件級的性能表現。在 2020 雲原生產業大會 上,阿里雲研究員、阿里雲原生技術負責人丁宇表示,“阿里雲一直致力於推動雲原生在國內的普及,將與信通院一起促進中國容器市場的規範化、標準化發展。”

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章