1.比較 LLaMA、ChatGLM、Falcon 等大語言模型的細節:tokenizer、位置編碼、Layer Normalization、激活函數等。
2. 大語言模型的分佈式訓練技術:數據並行、張量模型並行、流水線並行、3D 並行、零冗餘優化器 ZeRO、CPU 卸載技術 ZeRo-offload、混合精度訓練、激活重計算技術、Flash Attention、Paged Attention。
3. 大語言模型的參數高效微調技術:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。
0. 大綱
1. 大語言模型的細節
1.0 transformer 與 LLM
1.1 模型結構
1.2 訓練目標
1.3 tokenizer
1.4 位置編碼
1.5 層歸一化
1.6 激活函數
1.7 Multi-query Attention 與 Grouped-query Attention
1.8 並行 transformer block
1.9 總結-訓練穩定性
2. LLM 的分佈式預訓練
2.0 點對點通信與集體通信
2.1 數據並行
2.2 張量並行
2.3 流水線並行
2.4 3D 並行
2.5 混合精度訓練
2.6 激活重計算
2.7 ZeRO,零冗餘優化器
2.8 CPU-offload,ZeRO-offload
2.9 Flash Attention
2.10 vLLM: Paged Attention
3. LLM 的參數高效微調
3.0 爲什麼進行參數高效微調?
3.1 prompt tuning
3.2 prefix tuning
3.3 adapter
3.4 LLaMA adapter
3.5 LoRA
3.6 實驗比較
4. 參考文獻
-
分析 transformer 模型的參數量、計算量、中間激活、KV cache -
【萬字長文】LLaMA, ChatGLM, BLOOM 的高效參數微調實踐 -
FlashAttention:加速計算,節省顯存, IO 感知的精確注意力
作者:spring