雲存儲,爲 AI 創新提速

當下,如火如荼的 AI 大模型對算力和數據存儲提出了更高的要求。在 6 月 1 日結束的“阿里雲峯會·粵港澳大灣區”上,阿里雲智能資深產品專家彭亞雄在 AI 新範式與商業創新論壇上做了《雲存儲,爲 AI 創新提速》的主題分享。彭亞雄認爲,在 AIGC 大模型的浪潮中,雲存儲作爲數據基礎設施,將在數據準備、訓練與推理、應用部署、內容審覈與協同等多個關鍵環節,發揮重要作用,助力 AI 創新加速。

一、AIGC 持續火熱,存儲系統面臨大考

當前,AIGC 已經成爲新的熱點,很多人認爲,AIGC 將會大幅提升整個社會的生產效率。這裏面,一些很有意思的趨勢正在發生。

首先,是獲取大模型的成本開始大幅降低。以 GPT 3.5 爲例,一千個 Token 的價格大概是 0.002 美金,這意味着 ChatGPT 輸出 100 萬個單詞文本,花費不到 3 美金。基於如此低廉的成本,大衆獲取大模型能力的門檻在快速下降,這無疑有助於應用層的持續創新。

其次,殺手級應用(Killer App)將持續湧現,未來在社會生產中的每一個環節、每一個 APP 都有機會接入 AI 大模型進行升級改造,不僅可以大幅降低內容創作的門檻,同時也會持續提升內容創作的速度。海量高質量數據的生產效率,將會提升到一個前所未有的高度。

再次,高質量的數據將是大模型持續迭代的核心要素。衆所周知,算法、算力、數據是 AI 的三大基石,而存儲作爲 IT 基礎設施中的重要一環,本質是數據服務。

這些機遇與挑戰也對存儲提出了更高的要求:如何高效存儲與管理海量多模態數據集; 如何在模型的開發和推理階段提升訓練效率; 如何保障 AI 生成內容合規安全; 如何便捷實現數據流轉與分發; 如何保障 AI 業務永續。

二、因地制宜,雲存儲加速 AI 產業創新發展

面對這些挑戰,雲存儲需要因地制宜、逐一擊破:減少數據孤島,持續降低成本,統一存儲底座;持續提升存儲性能,減少 GPU 等待時間;面向海量 AIGC 內容,提供一站式檢測與處理能力;管理數據資產,讓數據分享與協作更簡單;構建高可用架構,讓 AI 永遠在線。阿里雲存儲正是從這五個方面入手,爲 AI 產業創新發展加速。

1、智能數據湖,爲多模態數據集與模型提供統一存儲底座

AI 訓練的數據集,通常具有以海量小文件爲主的特點,以 LAION-5B 爲例,200TB 的數據規模,文件數量高達百億量級。因此,在數據準備階段,爲了更有效地管理海量半結構化、非結構化數據,建議採用對象存儲作爲統一的數據底座,構建智能數據湖。

首先,對象存儲 OSS 本身就是爲海量數據而設計,可存儲任意規模的數據,同時支持 Tbps 級吞吐,便於數據的上傳與下載。

其次,海量 AIGC 內容、大模型,在持久化存儲時,需要持續優化存儲成本。對象存儲 OSS 有 5 種存儲類型可供選擇,深度冷歸檔類型低至 0.75分/GB/月。客戶可以把長期低頻訪問的數據放到 OSS 深度冷歸檔類型中,從而在數據增長的情況下,能夠持續降低 TCO。

再次,AI 和大數據一體化已經成爲趨勢,以 OSS 爲底座,一份數據對接多種不同計算引擎,可以很好地通過 HDFS 協議和 OSS 對象協議去對接傳統的 Hadoop 應用和 HTTP 應用。

最後,對象存儲 OSS 支持與高性能並行文件存儲 CPFS 打通,對象存儲 OSS 中的數據通過數據流動可以合併入 CPFS,實現統一命名空間的元數據管理。您可以手動或者通過自動 Lazy-load 能力,將 OSS 中的數據複製到 CPFS 中,實現通過 POSIX 文件接口高速訪問 OSS 中的數據。

2、高性能文件存儲,加速 AI 訓練與推理效率

數據完成預處理後,再進行 AI 訓練和推理,爲了提高整體作業效率,建議採用高性能文件存儲搭配 PAI-靈駿智算服務。

對於中大型規模的客戶,推薦使用並行文件存儲 CPFS,CPFS 基於端到端的 RDMA 網絡、全對稱的元數據服務器架構,單集羣能力可以達到 2TB/s 吞吐、3000 萬 IOPS,能很好地滿足海量小文件處理需求。並且 CPFS 和靈駿智算一樣支持多種售賣形態,包括公共雲 CPFS、CPFS 全託管(靈駿智算)、CPFS 混合雲等。在不同的業務場景下,既可以選擇資產自持的模式,也可以選擇公共雲和智算模式,將 CAPEX 轉換成 OPEX,以雲的方式,按量付費靈活使用。

彈性文件客戶端(Elastic File Client,簡稱“EFC”),通過計算端元數據緩存和創新的 lease 機制,提升 ls\du 等常見元數據操作速度 10 倍,可媲美本地 EXT4 性能,且多個客戶端的數據保持強一致。彈性文件客戶端與 Fluid 配合,在數據集訓練場景下,相較 NFS 客戶端,整體訓練耗時縮短 87%。

面向一些小規模業務場景,尤其是面向 serverless 場景、從小的數據集開始訓練的客戶,我們也有極速型 NAS 可供選擇。爲了更好地服務這些客戶,提升訓練效率,阿里雲存儲將會把極速 NAS 吞吐性能提升 330%,其中小規格起步高吞吐從 150MBps 提升至 500MBps,整體吞吐上限從 1200MBps 提升至 4000MBps。

3、智能媒體管理,一站式完成 AIGC 內容處理

得益於 AI 模型的不斷精進,AI 正大步邁入數字內容生產領域。目前,AIGC 已在寫作、繪畫、作曲多項領域達到“類人”表現。在 AI 模型部署和應用階段,廠商必須在安全合規的基礎上穩步實現 AIGC 應用落地、推進產品迭代。海量的 AIGC 內容,可以通過智能媒體管理 IMM 來做預處理和審覈。

智能媒體管理 IMM 是一個與雲存儲原生集成的平臺,這意味着無需移動數據就可以自動地進行處理。比如,IMM 支持一鍵關聯對象存儲,用戶無需額外開發,即可支持文檔處理、內容識別與檢測等多種能力。IMM 具備完備的內容審覈能力,無論是文本、圖片還是視頻,能夠面向多模態數據進行多種內容審覈,幫助企業更好地應對監管需求。

同時,IMM 提供面向場景的元數據管理能力,簡化客戶場景應用的設計複雜度,以便快速構建應用。最爲關鍵的一點是,IMM 是一個 serverless 的服務,無需運維,讓客戶可以更加專注自己的業務。

4、網盤與相冊服務,讓 AIGC 內容協同與分享更簡單

AIGC 生成的海量數據,在經過內容審覈後需要流轉起來,在組織和組織之間、人與人之間進行協同和分享,方能產生更大的價值。

通過網盤與相冊服務 PDS,可以讓 AIGC 內容協同、數據資產管理和內容分享更爲簡單。PDS 包含企業版和開發者版本,是爲客戶提供的面向企業、團隊與個人的數據資產管理開放平臺,提供一站式數據存儲、分析、協同、分享和 AI 處理的能力。時至今日,PDS 在雲上支撐了十億級別的客戶管理,具備管理百 EB 級別的數據規模的能力。深度集成 AI 能力的 PDS,支持數千種圖片標籤分類,加速 AIGC 內容預處理。

同時,PDS 支持開箱即用,用戶既可以基於企業網盤這種 SaaS 服務,在企業內部快速構建簡單高效易用的數據資產管理平臺,也可以通過網盤的中間件去構建面向 C 端的個人網盤。所有的功能支持 OpenAPI 開放,幫助用戶快速構建和設計適合自身的產品形態。

PDS 支持組織內外分享,冷熱數據分發自動路由,所以對於擁有海量數據的企業而言,當需要數據在組織內部和外部進行流轉、打通不同雲盤之間數據時,PDS 會是一個非常好的選擇。

今年阿里雲存儲也會在 PDS 中集成更多的大模型能力,我們希望讓存儲在 PDS 裏的數據更加智能化,提升數據管理效率,爲企業辦公和個人開發者提供更多開箱即用的 AI 能力。

5、高可用 SLA 與容災能力,讓 AI 一直在線

隨着 AI 能力的普及,可以預見的是,AI 將成爲 7*24 小時的在線服務,如何保證它一直在線,是所有負責系統架構的人都要考慮的關鍵問題。在數據存儲底座這一塊,OSS 同城冗餘存儲類型,提供了業界領先的 99.995% 服務可用性 SLA,每十萬次請求,失敗次數不超過 5 次,OSS 的標準、低頻、歸檔存儲,都支持同城冗餘的產品形態。

OSS 同城冗餘存儲類型,在全球 11 個地域提供服務,在 6 月底,OSS 將發佈本地冗餘 Bucket 產品化升級到同城冗餘 Bucket 的能力。客戶可以以服務化的方式,將原來本地冗餘的 Bucket 自助升級到同城冗餘的 Bucket,從而提升整個系統架構的可用性。

如果客戶擔心同城冗餘的 Bucket,數據仍然在同一個地域,難以抵禦地域級別的災害,阿里雲存儲也提供了跨地域複製的容災能力。OSS 跨區域複製 RTC 能力,可以讓 99.99% 的數據在 10 分鐘內,在不同地域之間完成複製,保持近實時同步。在實際線上生產環境中,有一家遊戲廠商通過靈活運用 RTC 的能力,99.999% 的數據在 10 秒內完成了不同地域間的數據複製,相當於在對象存儲層面,構建了跨地域秒級 RPO 的一個容災架構,對提升業務連續性起到非常關鍵的作用。

前面提到的這些能力,無論是數據湖、高性能文件存儲,還是智能媒體管理、網盤與相冊服務以及容災高可用能力,都已經在 AIGC 業務場景中,得到了廣泛的客戶認可和使用。中國某 AIGC 藝術創意靈感平臺,使用對象存儲 OSS 構建統一數據湖底座,存算解耦帶來計算與存儲的彈性擴展能力,一份數據對接不同計算引擎,通過 CPFS 與 OSS 數據流動,在訓練效率提速 300% 的同時,持續爲客戶優化存儲成本。

面向 AI 時代的雲存儲,必須要服務於數據全生命週期,貫穿 AI 業務全流程,在數據準備、模型訓練與部署、應用與內容生成、內容分發與協作每一個關鍵環節,提供穩定、安全、高性能、低成本的存儲能力。在新的 AI 浪潮下,阿里雲存儲將繼續努力,幫助客戶實現 AI 創新加速,助力客戶業務持續增長。

點擊立即免費試用雲產品 開啓雲上實踐之旅!

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章