阿里雲 ACK One Serverless Argo 助力深勢科技構建高效任務平臺

作者:田雙坤、禹楊楊、孫建翔

前言

深勢科技是“AI for Science”科學研究範式的引領者和踐行者,致力於運用人工智能和多尺度模擬仿真算法,結合先進計算手段求解重要科學問題,爲人類文明最基礎的生物醫藥、能源、材料和信息科學與工程研究打造新一代微尺度工業設計和仿真平臺。

對於深勢的科學家和用戶來講,每天都要進行大量的仿真計算和實驗,對應有數以萬計的任務需要運行,於是深勢科技構建了自己的機器學習任務平臺,來實現任務開發訓練的自動化提交運行,但是隨着業務發展,任務數量和複雜度急劇增大,平臺出現了許多的痛點。

業務痛點

在使用任務平臺的過程中,主要遇到以下痛點:

1)無法高效彈性

業務具有峯值高,併發大的特點,高峯期可能達到萬節點,資源供給不足,會導致業務失敗。 在任務跨系統調用時,等待時會產生空閒 Pod,一昧空轉會導致資源浪費。

2)運維困難

任務引擎基於開源構建,在出現問題時,需要專業的人來定位問題,由於用戶提交的任務參數複雜,步驟多,常常需要耗時數小時,成本巨大。爲了避免業務之間的相互影響,按照業務區分了不同的集羣,進一步加劇了運維的困難程度。

3)穩定性低

在集羣中運行非常多的工作流時,管控面壓力太大,會導致集羣不可用,業務受損,並且任務失敗重試機制不完善,整體任務完成率低。

4)安全風險

權限控制困難,無法做到用戶級別的權限控制,有很多潛在的不穩定因素,難以保證業務和主機安全。

全託管 Serverless Argo 工作流

Argo Workflows 是 CNCF 畢業項目,最受歡迎的雲原生工作流引擎,無縫兼容 Kubernetes,在機器學習、數據處理、CI/CD、自動化等場景下有着非常廣泛的應用。

爲使企業可以更加輕鬆地編排工作流,在短時間內輕鬆運行大規模機器學習或數據處理的計算密集型作業,快速運行 CI/CD 流水線,阿里雲分佈式雲容器平臺 ACK One 提供無服務器模式的分佈式工作流 Argo 集羣功能(Serverless Argo),使用阿里雲彈性容器實例 ECI 運行工作流,通過優化 Kubernetes 集羣參數,實現大規模工作流的高效彈性調度,同時配合搶佔式 ECI 實例,優化成本。

ACK One Serverless Argo 託管了開源 Argo Workflows,完全兼容社區標準,並且在其基礎上有衆多增強:

1)跨地域高彈性,資源按需

結合大規模 Serverless Pod 以及跨地域算力調度,在高峯期能夠調度到數十萬彈性資源,完美應付算力高峯。

增強開源 Argo Suspend 機制,減少跨系統間調用時的資源空轉浪費,節省成本。

2)開箱即用,無需運維

Serverless Argo 緊跟開源社區,託管並加強了開源 Argo Workflows,支持大 Workflow(5000+Pod),大規格參數,運行時更新重試,機器學習工程師無需感知底層架構,5 分鐘即可獲得一個穩定高性能的工作流引擎。

3)集羣高可靠

通過衆多大規模使用場景沉澱,Serverless Argo 對集羣的管控面進行了針對 Workflow 類型任務的參數調優,提升了管控面穩定性,對無效資源進行定期清理,保證集羣的長期穩定運行。

4)安全

結合阿里雲權限控制,Serverless Argo 能夠提供精細化的權限控制。支持 RAM 賬號 SSO 登陸,Namespace 級隔離,有效降低集羣安全風險。

Serverless Argo 平臺非常好的滿足了深勢科技對於機器學習任務平臺高效彈性、免運維、高可靠、安全等方面的需求,遷移也是水到渠成的結果。除此之外,平臺還在事件驅動、數據訪問、社區差異化等方面有許多優化和增強,讓不同類型用戶在 ACK One Serverless Argo 平臺上得到適配更多場景、更豐富的能力,可以更便捷的構建起符合自身業務需求的工作流平臺。

5)事件驅動

託管了 Argo Events,一鍵開啓,並且整合支持了 MNS、OSS 等阿里雲產品和開源 Git 等事件源的驅動,自動化的觸發任務運行,可以幫助用戶構建事件驅動的全自動化工作流平臺。

6)數據訪問

支持高帶寬讀,提供的 CNFS 支持 NAS、OSS、CPFS 混合使用和多鏈路加速訪問, 支持 20GB+ 讀帶寬。提供分佈式緩存加速能力,提高數據訪問性能,減少任務啓動時延,有效節省成本。

7)社區版差異化

相比開源的 Argo Workflows,除了穩定性、可靠性的保障之外,還提供許多的差異化能力,來提高用戶工作流的成功率和可觀測性:

  • 自動化感知任務失敗原因(OOM、Spot Release、磁盤不足等)並 Retry 和自適應 Pod 資源擴容。
  • 工作流 DAG FailFast、Continue On 邏輯優化和 UpdateAPI 增強,支持運行時更新。
  • 工作流端到端成本/資源觀測支持、Inputs/Outputs Artifacts UI 可觀測支持。
  • 超大輸入參數工作流支持。加速工作流間參數解析,支持更扁平(2000+Step)工作流。

遷移成果

在技術方面,深勢科技聯合 ACK One 團隊將之前積累的多項特性一同貢獻給社區,進一步提高 Argo Workflows 項目的穩定性和易用性。

在業務方面,由於 Serverless Argo 完全兼容開源 Argo Workflows,所以原平臺的各個業務模板可以達到無需修改、無縫遷移,在一週之內就完成了機器學習任務平臺的整體遷移。原本分散的多個集羣,如今在 Serverless Argo 平臺的助力下,被整合成一個高效、統一的集羣,這一變革使運維成本顯著降低,簡化了管理流程,並提升了系統的整體性能。

深勢科技 Lebesgue 基礎服務負責人孫建翔對遷移過程中的順利進展表示滿意。他特別提到:“阿里雲的積極協助在整個遷移過程中起到了關鍵作用。他們的專業團隊爲我們提供了全方位的支持,從方案設計到實施遷移,都給予了我們極大的幫助。無論是多大的工作負載,Serverless Argo 平臺都能輕鬆應對,其出色的彈性和擴展性讓我們倍感安心,用戶對於超大工作流的拉起速度的提升表示高度讚賞。有了 Serverless Argo 平臺的強大支持,我們有信心將更多的業務遷移至該平臺,從而進一步提升研發效率,加速產品的迭代和創新。我們期待着在 Serverless Argo 平臺的助力下,不斷突破技術瓶頸,爲用戶提供更加卓越的產品和服務體驗。”

未來

隨着模擬仿真、科學計算等大規模數據處理需求越來越多,ACK One Serverless Argo 會繼續在彈性、穩定性等方面進行增強,更好的支持大規模數據處理的運行。在 CI/CD、自動化方面也會適配更多場景,驅動基礎設施的自動化改造。歡迎使用釘釘搜索羣號加入我們。(釘釘羣號:35688562)

點擊此處,瞭解分佈式工作流 Argo 集羣詳情。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章