大模型量化論文1

大模型如何輕量化訓練和部署是非常重要的問題.

相關論文也需要學習.

第一篇我就寫這裏.

          8-BIT OPTIMIZERS VIA BLOCK-WISE QUANTIZATION
1. 基本知識:

  1.1狀態優化器

  一個優化器在迭代第t次時候更新神經網絡參數w的公式爲: 

  .  L是損失函數.

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章