主流大語言模型的技術原理細節

1.比較 LLaMA、ChatGLM、Falcon 等大語言模型的細節:tokenizer、位置編碼、Layer Normalization、激活函數等。
2. 大語言模型的分佈式訓練技術:數據並行、張量模型並行、流水線並行、3D 並行、零冗餘優化器 ZeRO、CPU 卸載技術 ZeRo-offload、混合精度訓練、激活重計算技術、Flash Attention、Paged Attention。
3. 大語言模型的參數高效微調技術:prompt tuning、prefix tuning、adapter、LLaMA-adapter、 LoRA。

0. 大綱

圖片

1. 大語言模型的細節

1.0 transformer 與 LLM

圖片

1.1 模型結構

圖片

1.2 訓練目標

圖片

1.3 tokenizer

圖片

1.4 位置編碼

圖片

1.5 層歸一化

圖片

1.6 激活函數

圖片

1.7 Multi-query Attention 與 Grouped-query Attention

圖片

1.8 並行 transformer block

圖片

1.9 總結-訓練穩定性

圖片

2. LLM 的分佈式預訓練

圖片

2.0 點對點通信與集體通信

圖片

2.1 數據並行

圖片

2.2 張量並行

圖片
圖片

2.3 流水線並行

圖片

2.4 3D 並行

圖片

2.5 混合精度訓練

圖片

2.6 激活重計算

圖片

2.7 ZeRO,零冗餘優化器

圖片

2.8 CPU-offload,ZeRO-offload

圖片

2.9 Flash Attention

圖片

2.10 vLLM: Paged Attention

圖片

3. LLM 的參數高效微調

3.0 爲什麼進行參數高效微調?

圖片

3.1 prompt tuning

圖片

3.2 prefix tuning

圖片

3.3 adapter

圖片

3.4 LLaMA adapter

圖片

3.5 LoRA

圖片

3.6 實驗比較

圖片

4. 參考文獻

圖片
  1. 分析 transformer 模型的參數量、計算量、中間激活、KV cache
  2. 【萬字長文】LLaMA, ChatGLM, BLOOM 的高效參數微調實踐
  3. FlashAttention:加速計算,節省顯存, IO 感知的精確注意力

 

作者:spring

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章