阿里雲大模型數據存儲解決方案,爲 AI 創新提供推動力

隨着國內首批大模型產品獲批名單問世,百“模”大戰悄然開啓。在這場百“模”大戰中,每一款大模型產品的誕生,都離不開數據的支撐。如何有效存儲、管理和處理海量多模態數據集,並提升模型訓練、推理的效率,保障 AI 業務平臺運行的穩定,仍是亟待解決的難題。在雲棲大會上,阿里雲推出一系列針對大模型場景的存儲產品創新。這些產品通過利用 AI 技術賦能 AI 業務,可以幫助用戶更輕鬆地管理大規模多模態數據集,提高模型訓練、推理的效率和準確性。同時,這些產品還支持高可用性、可擴展性和安全性,滿足不同用戶的個性化需求。

爲 AI 算力提速的存儲服務

在實際生產過程中,AI 場景分爲訓練和推理兩個流程。其中訓練環節需要消耗大量的算力,爲了提升算力資源的生產效率,對於數據集和 checkpoint 的讀寫加速至關重要。阿里雲文件存儲 CPFS 採用全並行 IO 架構,數據和元數據分片存儲在所有節點上,單文件讀寫可以利用所有節點帶寬,同時 CPFS 的彈性文件客戶端可以利用近計算端緩存,進一步加速數據集和 checkpoint 讀寫。產品性能指標最高提供 20TB/s 吞吐和 3 億 IOPS,在超大規模訓練場景下,也能快速完成 checkpoint 讀寫,加速 AI 訓練。

本次雲棲大會發布的通義千問最新大模型產品,模型參數達到 2,000 億級別,在訓練過程中使用 CPFS 承載訓練用數據集和 checkpoint 的存儲。在千卡規模下,數據集的加載吞吐達到數百 GB/s,checkpoint 寫入吞吐近百 GB/s,結合計算側緩存加速,顯著提升了模型訓練效率。

在大規模推理環節時,需要多臺 GPU 協同處理,需要短時間內加載模型文件至所有 GPU 服務器的內存。阿里雲對象存儲 OSS 推出加速器 2.0 功能,以應對存儲在對象存儲 OSS 中大模型的加載需求。OSS 加速器 2.0 具有高效、靈活和易於使用的特點,提供了對象 RESTful API 和 OSSFS 兩種訪問方式,讓用戶無需修改原有的應用程序,便可快速讀取模型文件。OSS 加速器 2.0 內嵌於 OSS 服務中,數據無需進行搬遷就能夠爲熱模型文件按需提供自動伸縮的彈性吞吐性能,且實現了按量付費。這樣,無論是業務高峯還是低谷,用戶都能夠靈活應對,無需擔心資源的浪費。

對於使用文件存儲保存模型文件的客戶。文件存儲 NAS 推出的高級型規格可以提供低延遲數據訪問的同時,降低使用成本 54%。彈性文件客戶端 EFC 結合容器服務 ACK,提供了計算端分佈式緩存池,並可以通過 P2P 技術充分利用多機帶寬。在多機推理方案中,爲模型熱文件提供超大吞吐的拉取能力,縮短模型準備時間。

在整個大模型的業務流程當中,存儲數據量龐大,且面對不同流程階段時,上層應用需要使用不同的數據格式,極爲容易發生數據孤島的情況。阿里雲利用對象存儲 OSS 的能力,構建統一的數據湖存儲,利用對象存儲 OSS 的海量擴展、低成本的存儲能力,搭建 AI 場景數據存儲底座。

讓 AI 數據高效組織

大模型表現出的優異能力,離不開大規模數據的支撐。若把大模型類比爲學生的話,供其訓練的素材集就是一本本教材。在訓練過程中,該如何優化數據集,避免出現“毒教材”的現象發生。只有高質量的數據集才能實現高質量的訓練和微調。

數據標籤是數據集的重要元數據。在訓練過程中,用戶往往會發現標籤數量過多,但是對素材的描述能力還是不足。這是因爲堆積的標籤數量無法滿足業務需求,因此需要採用“原子標籤+語義標籤”的方式,以提高素材理解的深度。爲了達到這個能力,阿里雲也在不斷地進行數據索引和檢索能力的革新。針對不同業務需求與研發能力的客戶,阿里云爲其提供了三種數據索引和檢索的方法。

針對用戶簡單靜態標籤數據檢索的需求,阿里雲 OSS 提供了 MetaQuery 的能力,能夠實現、秒級查詢海量數據。同時,OSS MetaQuery 提供了多種索引條件,覆蓋九大類數據類型,與 OSS 的標籤能力相結合,滿足了用戶的數據多維查詢和管理的基本需求。

對於需要高性能檢索且追求更低成本的用戶而言,阿里雲表格存儲 Tablestore 爲元數據存儲和檢索提供了卓越的性能和可靠性。Tablestore 是一種 Serverless 化元數據存儲系統,支持線上實時查詢,目前又提供了向量存儲格式、向量檢索,從而進一步實現對圖、文、音、視的語義檢索與傳統檢索相結合的查詢功能。在索引查詢方面,表格存儲Tablestore 可支持毫秒級的響應速度,並可平滑擴展索引規模,無上限。

若用戶既想享受到高性能的索引與檢索服務,又不想投入過多研發資源,阿里雲利用智能媒體管理 IMM,爲其提供一站式服務化元數據管理服務。IMM 利用阿里雲的 AI 能力理解富媒體文件的內容,抽取 AI 標籤和 Embeding 存儲到元數據庫中,並利用大語言模型理解用戶的自然語言查詢,轉化爲內部的指令,更高效地幫助用戶進行檢索數據。阿里雲將 FPGA 敏捷算力部署在對象存儲 OSS 附近。通過這種方式,阿里云爲用戶的海量數據提供了更快捷、更智能、更節約的索引與檢索服務,助力用戶實現更高效的業務運營。

AIOps 讓 AI 平臺運行更加高效

在當今市場競爭日趨激烈的時代,AI 產品的用戶體驗已經成爲了企業競爭力的核心所在。而對於那些運用人工智能技術的企業來說,不斷的產品迭代已經成爲了一種不可避免的趨勢。企業不能讓業務帶“傷”運行,只有穩定且平滑的應用與計算任務,才能帶給用戶優質的產品體驗。

阿里雲日誌服務 SLS 致力於打造高效、可觀測的運維解決方案,憑藉其多年的運維經驗以及大語言模型的支持,不斷提升其在此領域 的競爭力。SLS 發佈智能運維基礎模型,覆蓋 Log、Trace、Metric 等可觀測數據場景。模型提供開箱即用的異常檢測、自動標註、分類和根因分析等能力。支持秒級在數千請求內定位到根因,在生產中準確率達 95% 以上。支持自動標註人工輔助微調,支持人工標註結果打標修正,模型根據人工反饋自動微調,提升場景準確率。

此外,SLS 還提供智能問答的能力,即 Alibaba CloudLens Copilot 大模型助力雲設施運維與運營。採用基於大語言模型的 NL2Query 技術,精準理解用戶的查詢意圖,提高查詢結果準確性;無需理解複雜的 SQL 語言和查詢語法,可準確將自然語言查詢轉化爲 SQL 查詢和可視化圖表;建立場景化的知識圖譜,持續學習,不斷優化模型調整和知識庫更新,不斷改進問題解答的準確性和效果。

隨着大模型產品的快速發展,數據的存儲、管理和處理成爲了不可忽視的重要問題。阿里雲通過不斷創新和優化,推出了一系列針對大模型場景優化的數據存儲與管理方案,幫助用戶更好地管理和處理海量多模態數據集,提高模型訓練的效率、準確性以及降低成本支出。同時,這些方案還支持高可用性、可擴展性和安全性,滿足不同用戶的個性化需求。

原文鏈接

本文爲阿里雲原創內容,未經允許不得轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章