主流大語言模型的技術原理細節

原創

2023-09-24 13:23

1.比較 LLaMA、ChatGLM、Falcon 等大語言模型的細節：tokenizer、位置編碼、Layer Normalization、激活函數等。
2. 大語言模型的分佈式訓練技術：數據並行、張量模型並行、流水線並行、3D 並行、零冗餘優化器 ZeRO、CPU 卸載技術 ZeRo-offload、混合精度訓練、激活重計算技術、Flash Attention、Paged Attention。
3. 大語言模型的參數高效微調技術：prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大綱

1. 大語言模型的細節

1.0 transformer 與 LLM

1.1 模型結構

1.2 訓練目標

1.3 tokenizer

1.4 位置編碼

1.5 層歸一化

1.6 激活函數

1.7 Multi-query Attention 與 Grouped-query Attention

1.8 並行 transformer block

1.9 總結-訓練穩定性

2. LLM 的分佈式預訓練

2.0 點對點通信與集體通信

2.1 數據並行

2.2 張量並行

2.3 流水線並行

2.4 3D 並行

2.5 混合精度訓練

2.6 激活重計算

2.7 ZeRO，零冗餘優化器

2.8 CPU-offload，ZeRO-offload

2.9 Flash Attention

2.10 vLLM: Paged Attention

3. LLM 的參數高效微調

3.0 爲什麼進行參數高效微調？

3.1 prompt tuning

3.2 prefix tuning

3.3 adapter

3.4 LLaMA adapter

3.5 LoRA

3.6 實驗比較

4. 參考文獻

作者：spring

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

HTML頁面關於高分屏的設置

記錄一個HTML頁面關於高分屏的踩到的坑。所謂高分屏，就是在同樣大小的屏幕面積上顯示更多的像素點，這樣可以呈現更好的可視效果的屏幕。例如，我的筆記本是15.6寸，理論上它的屏幕分辨率應該是1920 x 1080像素，但實際上我的筆記本屏幕

2024-05-04 14:31:10

DAPPER 事務 TRANSACTION

https://www.cnblogs.com/friend/p/16754184.html\ public async Task<int> Save(long moldProducedProductId, List<MoldStan

2024-05-04 14:29:20

[MDP.AspNetCore] 實作OAuth協定SSO Server/Client專案範例

團隊負責的系統變多的時候，使用SSO Server提供統一身分驗證，讓團隊只需要維護一份用戶資料及一個身分驗證服務。除了減少團隊維護成本之外，也讓使用者不用記憶多個站臺的帳號密碼，提供更好的使用者體驗。本篇文章，介紹使用MDP.AspNe

2024-05-04 14:23:49

Redis官方開源的可視化管理工具 - RedisInsight

前言今天大姚給大家推薦一款Redis官方開源的可視化管理工具：RedisInsight。 Redis介紹 Redis (Remote Dictionary Server) 是一個使用 C 語言編寫的，開源的 (遵守 BSD 協議) 高性

2024-05-04 14:21:49

Python 潮流週刊#49：谷歌裁員 Python 團隊，微軟開源 MS-DOS 4.0

本週刊由 Python貓出品，精心篩選國內外的 250+ 信息源，爲你挑選最值得分享的文章、教程、開源項目、軟件工具、播客和視頻、熱門話題等內容。願景：幫助所有讀者精進 Python 技術，並增長職業和副業的收入。本期週刊分享了 12

豌豆花下貓

2024-05-04 14:19:09

HarmonyOS 垂直方向內容滾動條實現

概述 Swiper組件是一個用戶界面元素，用於在垂直方向上滾動內容。它通過遍歷一個數據集合，爲每一項創建一個可滾動的文本項。代碼實現以下是Swiper組件的實現代碼： Swiper(){ ForEach(searchSwiper,

2024-05-04 14:05:08

基於SSM的倉庫進銷存系統畢業設計論文【範文】

摘要隨着信息技術的不斷髮展，企業對於倉儲管理的要求日益提高。爲了提升倉庫管理的自動化和智能化水平，本研究設計並實現了一個基於Spring、Spring MVC和MyBatis (SSM) 框架的在倉庫進銷存系統。該系統旨在爲企業提供一個高

2024-05-04 14:03:17

基於SSM的在線考試系統畢業設計論文【範文】

摘要隨着信息技術的飛速發展，網絡教學逐漸成爲教育行業的重要組成部分。在線考試系統作爲網絡教學平臺的關鍵模塊之一，其便捷性、高效性和公正性受到廣泛關注，基於SSM框架的在線考試系統旨在提供一個穩定、可靠並且易於維護的在線考試環境，以滿足現代

2024-05-04 14:03:17

CSS & JS Effect – 用 wheel 模擬 scroll

前言在用 JavaScript 實現 position sticky 文章中，我提到了用 wheel 來模擬 scroll 效果。這篇來說說具體怎麼實現，挺簡單的哦。 Preparation table.html <div c

2024-05-04 13:59:16

python包：torchsummary

利用torchsummary觀察每一層的情況 1）按照方式 pip install torchsummary 2）

2024-05-04 13:56:56

Windows使用WSL2及docker(Ubuntu22.04 LTS)

WSL2初始化 1.換源 #1 cp /etc/apt/sources.list /etc/apt/sources.list.bak #2 vim /etc/apt/sources.list # 清空原源並替換成以下源 # deb-src

臨冬城城主

2024-05-04 13:52:56

學習Mysql 你應該懂得

1、日誌系統：平時在設計系統時可以借鑑一下參考下面文章 https://www.cnblogs.com/ScarecrowAnBird/p/18163444 2、索引：提高性能利器 3、鎖：提高併發能力小絕招 https://ww

落葉已歸根

2024-05-04 13:45:25

mysql 鎖，和加鎖機制

背景間隙鎖是MySQL在RR可重複讀隔離級別下用來修復幻讀才引入的一種鎖，間隙鎖也只有在RR可重複讀隔離級別下才會存在，如果是在RC讀已提交隔離級別下，是沒有間隙鎖的存在的。另外，我們也知道，幻讀這種現象也只有在當前讀的時候纔會發生，在一致

落葉已歸根

2024-05-04 13:45:25

深入 Django 模型層：數據庫設計與 ORM 實踐指南

title: 深入 Django 模型層：數據庫設計與 ORM 實踐指南 date: 2024/5/3 18:25:33 updated: 2024/5/3 18:25:33 categories: 後端開發 tags: Djang

2024-05-04 13:38:24

[轉帖]Introducing Exadata Cloud@Customer X10M

https://blogs.oracle.com/database/post/introducing-exadata-cloudcustomer-x10m Extreme Scale with Dramatically

濟南小老虎

2024-05-04 13:29:33

24小時熱門文章

DAPPER 事務 TRANSACTION

最新文章

最新評論文章