雲存儲在AIOps、數字人以及訓練推理場景的最佳實踐

在以AIGC大模型爲代表的技術新浪潮中，存儲作爲數據基礎設施，將在數據採集、訓練與推理、應用部署、內容審覈與協同等多個關鍵環節發揮重要作用，助力 AI 創新加速。據IDC調研顯示，67%的中國企業已經開始探索AIGC在企業內的應用機會或已經開始進行資金投入。

12月2日，阿里雲存儲團隊、通義實驗室、阿里雲培訓中心在深圳粵海國際化企業服務交流中心聯合舉辦了雲存儲技術實戰營之數據+AI專場沙龍，吸引了衆多開發者和企業代表的關注。來自阿里雲存儲、達摩院、日誌服務的專家就AIGC技術和企業出海案例進行了講解，幫助企業瞭解最新雲計算以及AI技術的具體落地，爲企業高質量發展以及業務出海提供有益借鑑。

1 可觀測場景下AIOps實踐

隨着數字化建設的深入推進，我們進入了移動開發的碎片化時代，不僅要從研發角度考慮問題，還要考慮系統的穩定性和運營需求，如流量、客戶增長、安全審計等。AI注重通用能力和對話理解，可廣泛應用於各行各業中。而AI Agent可以幫助在特定場景下訓練分身，降低工作量。

無論是開發運維、安全還是運營，所有工作的過程（如數據採集、預處理、決策智能）和步驟都大體相似。運維和運營工作可以拆解成幾個階段，包括觀測指標、存儲數據、分析展示、判斷決策等。Gartner 報告指出，到 2026 年，成功應用可觀測性的企業中，有 70% 的企業將實現更短的決策延遲，從而爲目標業務或IT流程帶來競爭優勢。

阿里雲資深技術專家簡志指出，系統分析與決策智能的兩個重要步驟是數據採集和預處理，在開發和運維領域，Logging（日誌）、Metrics（指標）和Tracing（調用鏈）是最典型的三種模態數據。通過對Logging、Tracing和其他數據的關聯分析，可以覆蓋大部分運營安全需求，提高對系統的感知。日誌服務SLS可將 Log、Metric、Trace 等數據進行統一存儲和融合分析，並具備自動巡檢、異常實時通知、根因定位等能力，輔助企業快速定位問題。

不難發現，可觀測性建設的核心關注點在數據的採集、存儲、分析環節。阿里雲SLS可觀測數據分析平臺，提供了多種數據接入方式，並能夠支持多個開源協議。時序數據建立基礎模型算法可以實現對流量數據的聚合、週期性分析和削峯填谷。通過日誌分析和Trace技術解決系統調用鏈定位問題的方法可以提高用戶體驗。通過構建知識圖譜並應用大語言模型，可以幫助回答常見問題並解放繁重的工作負擔。未來需要整理和沉澱領域知識，提升AI的理解能力。

2 基於FaceChain的AI人像寫真生成實踐

傳統的人像攝影通常需要高端設備和專業的技能，是用光的藝術。而AI寫真則通過圖像處理與神經網絡算法，就可以生成細節纖毫畢現的圖片。藉助AI軟件工具，技術小白可根據偏好需求生成各種類型的照片，寫真、證件照等等都不在話下。甚至，AI寫真還能夠自動化地進行後期調整，讓構圖、光影、影調更爲和諧，讓照片看起來更具有層次感和美感。

在Stable Diffusion中，可以通過對少量輸入圖像進行文生圖訓練的方式將輸入圖像的信息注入到LoRA模型中。FaceChain 集成了最強大的開源文生圖模型 SDXL1.0，是一個可以用來打造個人數字形象的深度學習模型工具，支持上百種寫真風格。通過prompt自定義能力，即可允許用戶進行DIY。

個人寫真模型的能力分爲訓練與推斷兩個階段：在訓練階段，用戶僅需要提供最低一張照片即可獲得屬於自己的個人形象數字替身，整個過程持續約4-5分鐘。訓練完成後，進入推斷階段，結合不同的風格LoRA 模型和寫真模版，可以在1分鐘左右生成超乎想象空間的個人寫真作品。除了單人寫真外， FaceChain 也支持生成多人寫真。結合衣物與場景，FaceChain 還可實現虛擬試衣的功能。

重陽節期間，FaceChain 團隊探索了AIGC技術在社區老人身上的應用，幫助他們生成屬於自己的婚紗照。目前，魔搭已經實現了1.0和1.5版本的人像生成技術，以及無限風格寫真和模板寫真功能。團隊還計劃融入更多時尚設計，實現無需訓練的人物寫真技術。此外，他們也推進了強化學習訓練框架，並將推廣更具有可玩性的人像視頻技術。

3 雲上AI應用訓練與推理的存儲最佳實踐

日就月將，學有緝熙於光明。大模型作爲機器學習領域的尖端代表，其研發並非一日之功。機器學習的工作流程可大致分爲數據採集、數據準備、模型訓練和模型推理四個階段，每個階段對於數據存儲的要求都不盡相同，這無疑給存儲帶來了機會和挑戰。

阿里雲技術專家浪遠指出，闖過算力關，才能拿到大模型競賽的入場券。在AI訓練過程中，CheckPoint耗時會直接影響算力利用率。爲了解決這個問題，可以使用更高性能的存儲系統，如並行文件系統。阿里雲的並行文件系統CPFS具有高吞吐率和高IOPS，可以滿足大規模數據存儲和讀取的需求，有利於提升訓練效率。

作爲一款高性能的並行文件存儲，文件存儲CPFS通過將數據打散訪問，提高了計算節點的存儲數據性能。它通過將查詢數據並行化，加快了數據訪問速度；使用分佈式原數據作爲地圖，避免了數據瓶頸；採用高速網絡和優化的磁盤切片技術，提升了系統性能。並且文件存儲CPFS實現了與OSS之間數據雙向流動，數據集可預加載至CPFS以提升訓練效率，冷數據可歸檔至OSS降低成本。致力於推動大模型應用落地的百川智能，就使用了CPFS智算版和OSS搭建大模型服務。

在AI推理場景中，GPU對數據的讀取和訓練有些不同。細而言之，在推理中，數據主要是大文件的大I/O讀取，要的其實是一種burst的大單流和大聚合帶寬，很少涉及數據寫入。而且很多開源模型需要通過網絡直接上傳到存儲系統中，所以許多阿里雲用戶會使用OSS作爲模型庫的存儲。爲了減少數據導入的時間，OSS通過更大分條適配、清濁分離、動態集羣調度將默認吞吐能力提升10倍。LibLib通過採用阿里雲OSS、NAS，構建了統一AIGC存儲服務，加速業務的商業化。

此外，阿里雲在OSS上構建了OSS加速器功能，通過OSS加速器看到的數據和OSS中的數據是強一致的。當前，加速器功能正在向2.0版本演進。在2.0版本中，整個服務將實現serverless化，開發者可以完全按需使用，大幅降低起步門檻。爲LibLib構建統一AIGC存儲服務

結語：人工智能技術的創新迭代驅動了應用場景的進一步落地，以智能決策、多模態、AI大模型爲代表的熱點爲市場帶來了更多想象力和可能性。同時，企業對自身“數字化”、“數智化”轉型的積極推動催生出對AI技術的多元化需求。阿里雲將幫助更多企業和開發者在AIGC時代開疆擴土。

原文鏈接

本文爲阿里雲原創內容，未經允許不得轉載。

雲存儲在AIOps、數字人以及訓練推理場景的最佳實踐

1 可觀測場景下AIOps實踐

2 基於FaceChain的AI人像寫真生成實踐

3 雲上AI應用訓練與推理的存儲最佳實踐

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

Java中止線程的方式

美國：每年因汽車保險欺詐損失數十億美元

AI繪圖新選擇：Fooocus工具發佈，小顯存助力大模型運行

GLM國產大模型訓練加速：高效性能與成本優化的實踐

Python 爬蟲：Spring Boot 反爬蟲的成功案例

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結