清華大學力作！一個「PPT」框架，讓超大模型調參變簡單

↑↑↑點擊上方藍字，回覆資料，10個G的驚喜

轉自：機器之心

圖源：https://www.zhihu.com/pin/1419682869878489088

近年來，微調預訓練語言模型（PLM）取得了很大進展。通過微調 PLM 的全部參數，從大規模無標籤語料庫中獲得的多方面知識可以用於處理各種 NLP 任務，並優於從頭學習模型的方法。爲簡單起見，此處將這種全模型調整（full-model tuning）稱爲 FT。

如下圖 1 (b) 和 (c)所示，主流的 FT 方法共有兩種。第一種是任務導向的微調，在 PLM 上添加一個 task-specific 的頭（head），然後通過優化 task-specific 訓練數據上的 task-specific 學習目標，來微調整個模型。

第二種是以 prompt 爲導向的微調，其靈感來自最近的一些研究，這些研究利用語言 prompt 來激發 PLM 的知識。在以 prompt 爲導向的微調中，數據樣本被轉換爲包含 prompt token 的線性序列，所有的下游任務都被轉化爲語言建模問題。

如圖 1 (c) 所示，通過在句子中添加 prompt（It was hXi），我們可以根據 PLM 在掩碼位置給出的預測結果（great 或 terrible）來確定這個句子到底是積極還是消極。

如圖 1 所示，與以任務爲導向的微調相比，在目標方面（掩碼語言建模），以 prompt 爲導向的微調更類似於預訓練，因此有助於更好地利用 PLM 中的知識，通常也能取得更好的結果。

儘管上述 FT 方法已經顯示出很好的結果，但隨着模型規模的迅速擴張，爲每個下游任務微調一個完整的大模型正變得越來越昂貴。爲了應對這一挑戰，來自谷歌的 Brian Lester 等人在《 The Power of Scale for Parameter-Efficient Prompt Tuning 》中提出了 prompt tuning（PT），以降低爲下游任務微調大模型的成本，如圖 1 (d)所示。

具體來說，PT 採用包含連續嵌入的 soft prompt 代替 hard prompt（離散語言短語）。這些連續 prompt 嵌入通常是隨機初始化和端到端學習的。爲了避免爲每個下游任務存儲整個模型，PT 凍結了 PLM 的所有參數，只調整 soft prompt，無需添加任何中間層和 task-specific 組件。儘管 PT 具有很少的可調參數和簡單的設計，但它仍然可以媲美 FT，如圖 2(a)所示。

PT 有兩個非常有前景的優勢：1）與 hard prompt 相比，soft prompt 可以端到端學習；2）PT 是大規模 PLM 實際應用的一種高效、有效的範式。然而，如圖 2 (b)所示，在 few-shot 場景下，PT 的表現比 FT 差很多，這可能會阻礙 PT 在各種低資源場景下的應用。

因此，在這篇論文中，來自清華大學的 Yuxian Gu、Xu Han、劉知遠、黃民烈四位研究者廣泛探索瞭如何通過 PT 以高效和有效的方式使用 PLM 進行 few-shot 學習。

具體來說，在論文的第二部分，他們進行了試點實驗，分析了 PT 在大規模 PLM 中用於 few-shot 學習的有效性，這是現在很多研究所忽略的問題。他們發現：1）verbalizer 的選擇對於性能有很大的影響；2）簡單地用具體的詞嵌入初始化 soft prompt 並不能提高性能；3）將 soft 和 hard prompt 結合起來很有幫助；4）所有這些方法都不能很好地處理 few-shot prompt 調優問題。上述觀察結果表明，爲大規模 PLM 找到合適的 prompt 並非易事，而精心設計的 soft prompt token 初始化至關重要。

論文鏈接：https://arxiv.org/pdf/2109.04332.pdf

爲了幫助模型找到合適的 prompt，研究者使用大規模無標記語料庫上的自監督任務對這些 token 進行預訓練。爲了保證預訓練 prompt 的泛化能力，他們將典型分類任務分爲三種：sentence-pair 分類、multiple-choice 分類和 single-text 分類，每種對應一個自監督的預訓練任務。此外，他們發現 multiple-choice 分類比其他分類都要普遍，可以將所有下游分類任務都統一到這種分類中。他們給這種 Pre-trained Prompt Tuning 框架起名爲「PPT」。

研究者使用 3 個 11B 的 PLM（T5-XXL、mT5-XXL、CPM-2）在多個數據集上評估了 PPT 的性能。實驗結果表明，PPT 不僅可以大幅提升 few-shot PT，媲美甚至超越 FT 方法，還能降低 few-shot 學習的方差。除有效性之外，PPT 還保留了現有 PT 方法的參數效率，這對未來在大規模 PLM 上的應用具有重要價值。

PPT 架構概覽

遵循 T5 和 PT 的方法，研究者以一種 text-to-text 的方式解決所有下游任務。如圖 1(d)所示，爲了彌合預訓練和下游任務之間的 objective gap，以 prompt 爲導向的微調將下游任務轉化爲一些完形填空式的目標。以分類任務爲例，給定輸入句子

及其標籤

，首先應用模式映射

將 x 轉換爲一個新的 token 序列 f(x)，其中 V 是 PLM 的詞彙表。f(x)不僅添加了一些 prompt token 作爲提示，還保留了至少一個 masking token <X>，讓 PLM 預測掩碼位置的 token。接下來，使用一個 verbalizer

將 y 映射到一個標籤 token 序列 v(y)。藉助 f(·)和 v(·)，分類任務可以用 pattern-verbalizer 對 (f, v) 來表示:

其中，θ表示所有可調參數，特別是 PLM 的參數。爲了方便起見，研究者使用「PVP」來表示這個 pattern-verbalizer 對。

在 PT 中，將一組 soft prompt token P 連接到序列的前面，模型輸入變爲 [P;f (x)]。其中， [·; ·] 爲連接函數。通過單獨調整 P，其他參數固定，將式(1) 替換爲：

由於大規模 PLM 性能強大，在多個全數據情境下，式(2) 被證實與這些 FT 方法具有可比性。但是研究者發現，學習有效的 soft prompt 並不容易，這可能導致模型在各種 few-shot 情境下性能較低。參數的初始化通常對模型的學習難度有很大的影響。一般來說，除了隨機初始化 p 之外，一些研究從 PLM 的詞彙表 V 中採樣詞嵌入作爲初始化。然而，試點實驗的結果表明，現有初始化策略及其簡單變體對基於大規模 PLM 的模型性能影響很小或有消極影響（具體細節參見論文第四部分）。

近年來，預訓練已經被證明是一種尋找模型良好初始化的有效方法。受此啓發，研究者提出預訓練 soft prompt。他們注意到，若干組下游任務與基於無標籤預訓練語料庫的某些自監督任務相關。例如，一些 sentence-pair 分類的任務（如自然語言推理和句子相似度計算），與預訓練階段使用的 NSP 任務相似。如圖 3 所示，這些任務都以兩個句子作爲輸入並比較它們的語義。因此，對於這些 sentence-pair 任務來說，由 NSP 預訓練的 soft prompt 可以是一個很好的初始化。

假設可以將下游任務分爲 m 組：{T_1, T_2, ..., T_m}，其中，T_i 是包含 n_i 個下游任務的集合

，其中，

。針對每個組，研究者設計了一個對應的預訓練任務

，在這些預訓練任務上預訓練了 soft prompt 之後（所有模型參數固定），研究者得到 m 個預訓練 prompt：{P_1, P_2, ..., P_m}。在預訓練之後，對於 T_i 中的每個任務

，研究者繼續優化式(2)，使用 P_i 作爲 soft prompt 的初始化。

實驗及結果

之前的工作（Lester 等，2021；Zhang 等，2021b）表明，T5-XXL 在完全數據設置方面可以與 FT 相媲美。因此在實驗部分，對於英文數據集，該研究使用具有 11B 個參數的 T5-XXL 作爲基礎模型來進行 PT。該研究還對各種尺寸的 T5 進行了 FT 實驗，驗證了 T5-XXL 在 few-shot 場景中的表現優於其他尺寸，並且基於 T5-XXL 改進 PT 是有意義的。對於中文數據集，該研究基於 CPM-2 進行 PT。由於 CPM-2 不提供其他尺寸的模型，研究者將其與各種尺寸的 mT5 (Xue 等, 2021) 進行比較。

主要實驗結果

在英文和中文數據集上的結果如下表 4 所示，其中 FT 的部分展示了各種尺寸 T5 模型的全模型微調結果；PT 的部分展示了 PPT 和其他基線的結果。第一個基線是 Vanilla PT，其中的 soft token 是從正態分佈中隨機初始化的；第二個基線是混合策略；然後該研究還考慮了 Lester 等人（2021）使用的 LM Adaption。其中 T5 模型通過語言建模進一步預訓練 10K 步，以減少預訓練和微調之間的差距。除了 PPT 以外，該研究還測試了 PPT 的兩種變體：一種是 Hybrid PPT，將精心設計的 hard prompt 與預訓練的 soft prompt 相結合；另一種是 Unified PPT，其中所有任務都以 multiple-choice 的格式統一。

表 4 給出了關於有效性的結果：

隨着參數數量的增加，FT 的性能有所提升。
在大多數數據集中，PPT 明顯優於 Vanilla PT 和 LM Adaption。
PPT 在所有中文數據集和大多數英文數據集上都優於 10B 模型的 FT。
PPT 在大多數數據集上會產生較小的方差，相比之下，一般的 few-shot 學習常存在不穩定性，例如 Vanilla PT。

Unified PPT 將所有格式統一爲 multiple-choice 的格式，是 PPT 的另一種變體。表 4 的結果表明 Unified PPT 達到了與 PPT 和 Hybrid PPT 相當的性能，並且優於 soft-prompt 調整基線。

以上所有數據集的分類標籤都少於 5 個，該研究進一步在超過 5 個標籤的數據集上測試了 Unified PPT，實驗結果如下表 5 所示。

採樣效率

研究者探究了當訓練樣本數量增加時 FT、PT 和 PPT 的比較結果。下圖 4 展示了這些方法在 RACEm 和 CB 數據集上的趨勢。從中可以觀察到，對於從 32 到 128 個樣本，PPT 始終優於 Vanilla PT，當數量增長到 256 時，三種方法的性能逐漸收斂。


 
    
    
    
  
     
     
     
   
      
      
      
    
       
       
       
     
        
        
        
      
         
         
          
           
           推薦閱讀 
           
         
      
         
         
          
          （點擊標題可跳轉閱讀） 
         
      
         
         
          
           
            
             
             23個優秀的機器學習數據集 
             6行代碼！用Python將PDF轉爲word
 
             臺大美女教授陳縕儂：《應用深度學習》 
             李宏毅《機器學習》視頻教程 PPT 
             適合入門的深度學習綜述
 
             
            
           
         
     
        
        
        
    
       
       
       
   
      
      
      
  
     
     
     
 
    
    
    
老鐵，三連支持一下，好嗎？↓↓↓

本文分享自微信公衆號 - 機器學習算法與Python實戰（tjxj666）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

清華大學力作！一個「PPT」框架，讓超大模型調參變簡單

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

【面試準備】【SQL】數據庫有哪些約束？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

【機器學習】爲什麼神經網絡能工作？爲什麼它們經常不起作用？

清華大學力作！一個「PPT」框架，讓超大模型調參變簡單

【Python工具箱】自動可視化任何數據集！！！

機器學習基礎篇：支持向量機（SVM）理論與實踐

Python從青銅到王者，這5個實戰項目要會！

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結