本文將介紹大語言模型中使用的不同令牌遮蔽技術,並比較它們的優點,以及使用Pytorch實現以瞭解它們的底層工作原理。
令牌掩碼Token Masking是一種廣泛應用於語言模型分類變體和生成模型訓練的策略。BERT語言模型首先使用,並被用於許多變體(RoBERTa, ALBERT, DeBERTa…)。
而Text Corruption是一種更大的令牌遮蔽策略。在BART研究論文中,進行了大量實驗來訓練具有不同策略的編碼器-解碼器生成模型。
在進入正題之前,我們先介紹大型語言模型(llm)中掩碼策略的背景
https://avoid.overfit.cn/post/1b9d2c9d6b9a4bacbe6fa906c23aee7f