單個GPU可訓練數十億參數模型：異構深度學習訓練技術ZeRO-Offload做到了

原創

2021-03-22 18:34

{"type":"doc","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"近日，微軟和加州大學默塞德分校聯合推出了一種新穎的異構深度學習訓練技術ZeRO-Offload，這是基於Zero Redundancy Optimizer (ZeRO是微軟在 2020 年 2 月提出的一種萬億級模型參數訓練方法) 構建的。該技術可在單個GPU上訓練數十億個參數模型。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/8f\/8f7c649b5bbac255080fbd91c1e935fa.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"圖片來源："},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/2101.06840.pdf","title":"","type":null},"content":[{"type":"text","text":"https:\/\/arxiv.org\/pdf\/2101.06840.pdf"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"技術發展至今，我們正在邁入一個高度依賴深度學習（DL）模型的技術時代。隨着這些模型規模的成倍增加，訓練這些模型的成本也變得非常昂貴。由於訓練這些大規模模型需要最先進的系統技術，這就使得這類大規模模型的訓練受到了一定的限制。僅有爲數不多的AI研究人員和機構擁有資源來訓練這些包含十億多個參數的、規模龐大的深度學習模型。例如，要訓練100億個參數模型，就需要一個DGX-2等效節點，該節點需要具有19張NVIDIA V100卡，成本超過10萬美元，這超出了許多數據科學家甚至許多學術機構的承受範圍。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"爲了增加訓練大規模模型的可能性，加利福尼亞大學、默塞德大學和微軟的一組研究人員聯合開發了 ZeRO-Offload。這項新的異構深度學習技術可幫助數據科學家在單個GPU上訓練數十億個參數模型，而無需進行模型重構。它是一款具有高計算效率和近似線性擴展性的GPU-CPU混合深度學習訓練技術。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在訓練大規模模型時面臨的挑戰包括模型狀態，即參數、梯度、優化器狀態，以及缺乏有關利用CPU計算的研究。許多研究人員已經嘗試使用異構深度學習訓練來解決這些問題，以減少GPU內存需求，但這些辦法都是針對基於小型CNN模型的內存激活問題。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"傳統的數據並行性通常是用於將深度學習訓練擴展到多個GPU的社區標準。儘管如此，它仍然需要數據和計算再現，這就導致了傳統數據並行不適用於深度學習模型的異構訓練。另一方面，ZeRO-Offload可以同時利用CPU和GPU內存，從而高效地進行訓練。ZeRO-Offload還可以在CPU內存上維護優化器狀態的單個副本，而與數據並行度無關，這可以實現多達128個GPU的可伸縮性。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ZeRO-offload是基於三個原則設計的：效率、可伸縮性和可用性。研究人員已經確定了CPU和GPU設備之間獨特的數據分區和最佳計算策略。該方法涉及到的流程包括將梯度、優化器狀態和優化器計算分散到CPU，保留參數以及在GPU上保持向前和向後計算。研究人員觀察到，在計算條件有限的情況下，可訓練的模型大小增加了十倍，從而使單個NVIDIA V100GPU能夠以40 TFLOPS的速度訓練130億個參數。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https:\/\/static001.geekbang.org\/infoq\/01\/013923c66b67a62fe1c24a14a1287f8f.png","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"圖片來源："},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/2101.06840.pdf","title":"","type":null},"content":[{"type":"text","text":"https:\/\/arxiv.org\/pdf\/2101.06840.pdf"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ZeRO-Offload作爲開源PyTorch庫 DeepSpeed一部分，可在Github上獲取。只需更改幾行代碼，即可輕鬆將其添加到現有的訓練管道中。ZeRO-Offload提高了計算和存儲效率，並且易於使用。這些功能甚至能讓使用單個GPU的研究人員和數據科學家也可以進行大規模的模型訓練。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"論文地址："},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/2101.06840.pdf","title":"","type":null},"content":[{"type":"text","text":"https"}]},{"type":"text","text":":"},{"type":"link","attrs":{"href":"https:\/\/arxiv.org\/pdf\/2101.06840.pdf","title":"","type":null},"content":[{"type":"text","text":"\/\/arxiv.org\/pdf\/2101.06840.pdf"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DeepSpeed項目地址："},{"type":"link","attrs":{"href":"https:\/\/github.com\/microsoft\/DeepSpeed","title":"","type":null},"content":[{"type":"text","text":"https:\/\/github.com\/microsoft\/DeepSpeed"}]}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"原文鏈接："},{"type":"link","attrs":{"href":"https:\/\/www.marktechpost.com\/2021\/02\/01\/microsoft-and-the-university-of-california-merced-introduces-zero-offload-a-novel-heterogeneous-deeplearning-training-technology-to-train-multi-billion-parameter-models-on-a-single-gpu\/","title":"","type":null},"content":[{"type":"text","text":"https:\/\/www.marktechpost.com\/2021\/02\/01\/microsoft-and-the-university-of-california-merced-introduces-zero-offload-a-novel-heterogeneous-deeplearning-training-technology-to-train-multi-billion-parameter-models-on-a-single-gpu\/"}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

沙特2030年願景和對中國IT企業的市場機會分析

沙特2030年願景和對中國IT企業的市場機會分析前言：最近“開源老DJ，帶你去沙特”欄目第一期已經播出，收到了不錯的反響。見COPU官網的回顧。（https://mp.weixin.qq.com/s/3B0jNVhybxTF1xPiy

2024-04-23 22:24:54

2024 開源數據工程生態系統全景圖

點擊藍字關注我們作者 | ALIREZA SADEGHI翻譯 | Debra Chen 01 簡介

2024-04-23 21:30:36

RAG 修煉手冊｜如何評估 RAG 應用？

如果你是一名用戶，擁有兩個不同的 RAG 應用，如何評判哪個更好？對於開發者而言，如何定量迭代提升你的 RAG 應用的性能？顯然，無論對於用戶還是開發者而言，準確評估 RAG 應用的性能都十分重要。然而，簡單的幾個例子對比並不能全面衡量

2024-04-23 21:20:22

Xmake v2.9.1 發佈，新增 native lua 模塊和鴻蒙系統支持

Xmake 是一個基於 Lua 的輕量級跨平臺構建工具。它非常的輕量，沒有任何依賴，因爲它內置了 Lua 運行時。它使用 xmake.lua 維護項目構建，相比 makefile/CMakeLists.txt，配置語法更加簡潔直觀，

2024-04-23 12:10:57

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

MyDumper “喜歡” 觸發器麼？

是的，但現在它更“喜歡”它們，原因如下。介紹使用 LIKE 子句過濾特定表中的觸發器或視圖很常見。但是，它可能會欺騙您，特別是如果您看不到輸出（即在非交互式會話中）。讓我們看一個簡單的例子，以及如何以更可靠的方式處理任務。還有一個指向

2024-04-22 23:19:50

雲原生週刊：Kubernetes v1.30 發佈｜ 2024.4.22

開源項目推薦 pv-migrate pv-migrate 是一個 CLI 工具/kubectl 插件，可輕鬆將一個 Kubernetes 的內容遷移 PersistentVolumeClaim 到另一個 Kubernetes。 Claudi

2024-04-22 22:46:27

活動回顧丨雲原生開源開發者沙龍北京站回放 & PPT 下載

“零信任架構” 是一種安全概念，它要求在任何時候不對任何請求默認信任，無論它的來源內部還是外部。服務安全性已成爲企業的核心關切，4 月 13 日，雲原生開源開發者沙龍在北京順利開展。阿里雲一線工程師圍繞《微服務面臨的安全挑戰、趨勢與解決方

2024-04-22 21:12:01

BizDevOps全局建設思路：橫向串聯，縱向深化

直達原文：橫向串聯，縱向深化，BizDevOps全局建設思路 01 BizDevOps概述 IT技術交付實踐方法在不斷迭代中持續優化。在工業化時代，Biz（業務）、Dev（開發）、Ops（運維）三者往往相對分離，甚至有時只有其中的兩者或僅

2024-04-19 23:22:54

寫給職場新人｜從迷茫到屢獲殊榮的技術人成長之路

在這個時代，技術的每一次飛躍都在重塑我們的工作方式。借Up技術人專欄活動寫了這篇文章，回望一下我和計算機打交道的這幾年，希望能給學生或職場新人們一些幫助。 1.錨定方向：學生生涯的一次探險如果用一個詞語概括我的本科階段，那大概就

2024-04-19 23:17:23

工程中實踐的微服務設計模式

最近在讀《微服務架構設計模式》，開始的時候我非常的好奇，因爲在我印象中，設計模式是常說的那23種設計模式，而微服務的設計模式又是什麼呢？這個問題也留給大家，在文末我會附上我對這個問題的理解。本次文章的內容主要是工作中對微服務設計模式的應

2024-04-19 23:17:23

文心中國行走進成都！4 月 24 日一起把握大模型時代的產業新機遇

4 月 24 日，文心中國行將走進成都。屆時，政府、企業與高校的相關專家和業界同仁將現場分享生成式人工智能與大模型最新進展，從人工智能政策解讀、大模型技術，到產業創新應用的實踐案例，讓參會者全方位瞭解大模型時期的發展與創新機遇。大會還特別

2024-04-23 11:41:07

文心大模型“你說我畫”：PaddleHub與PaddleSpeech的協同實踐

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索時間序列大模型：TimeGPT的魅力與實踐

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

京東廣告研發——AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應用還存在缺乏

2024-04-22 11:16:30

24小時熱門文章

公司新來一個幹練小夥，把 MyBatis 替換成 MyBatis-Plus，上線後哭暈在廁所。。。

最新文章

最新評論文章