清華大學力作!一個「PPT」框架,讓超大模型調參變簡單

↑↑↑點擊上方藍字,回覆資料,10個G的驚喜

轉自:機器之心

圖源:https://www.zhihu.com/pin/1419682869878489088

近年來,微調預訓練語言模型(PLM)取得了很大進展。通過微調 PLM 的全部參數,從大規模無標籤語料庫中獲得的多方面知識可以用於處理各種 NLP 任務,並優於從頭學習模型的方法。爲簡單起見,此處將這種全模型調整(full-model tuning)稱爲 FT。

如下圖 1 (b) 和 (c)所示,主流的 FT 方法共有兩種。第一種是任務導向的微調,在 PLM 上添加一個 task-specific 的頭(head),然後通過優化 task-specific 訓練數據上的 task-specific 學習目標,來微調整個模型。


第二種是以 prompt 爲導向的微調,其靈感來自最近的一些研究,這些研究利用語言 prompt 來激發 PLM 的知識。在以 prompt 爲導向的微調中,數據樣本被轉換爲包含 prompt token 的線性序列,所有的下游任務都被轉化爲語言建模問題。

如圖 1 (c) 所示,通過在句子中添加 prompt(It was hXi),我們可以根據 PLM 在掩碼位置給出的預測結果(great 或 terrible)來確定這個句子到底是積極還是消極。

如圖 1 所示,與以任務爲導向的微調相比,在目標方面(掩碼語言建模),以 prompt 爲導向的微調更類似於預訓練,因此有助於更好地利用 PLM 中的知識,通常也能取得更好的結果。

儘管上述 FT 方法已經顯示出很好的結果,但隨着模型規模的迅速擴張,爲每個下游任務微調一個完整的大模型正變得越來越昂貴。爲了應對這一挑戰,來自谷歌的 Brian Lester 等人在《 The Power of Scale for Parameter-Efficient Prompt Tuning 》中提出了 prompt tuning(PT),以降低爲下游任務微調大模型的成本,如圖 1 (d)所示。

具體來說,PT 採用包含連續嵌入的 soft prompt 代替 hard prompt(離散語言短語)。這些連續 prompt 嵌入通常是隨機初始化和端到端學習的。爲了避免爲每個下游任務存儲整個模型,PT 凍結了 PLM 的所有參數,只調整 soft prompt,無需添加任何中間層和 task-specific 組件。儘管 PT 具有很少的可調參數和簡單的設計,但它仍然可以媲美 FT,如圖 2(a)所示。


PT 有兩個非常有前景的優勢:1)與 hard prompt 相比,soft prompt 可以端到端學習;2)PT 是大規模 PLM 實際應用的一種高效、有效的範式。然而,如圖 2 (b)所示,在 few-shot 場景下,PT 的表現比 FT 差很多,這可能會阻礙 PT 在各種低資源場景下的應用。

因此,在這篇論文中,來自清華大學的 Yuxian Gu、Xu Han、劉知遠、黃民烈四位研究者廣泛探索瞭如何通過 PT 以高效和有效的方式使用 PLM 進行 few-shot 學習。

具體來說,在論文的第二部分,他們進行了試點實驗,分析了 PT 在大規模 PLM 中用於 few-shot 學習的有效性,這是現在很多研究所忽略的問題。他們發現:1)verbalizer 的選擇對於性能有很大的影響;2)簡單地用具體的詞嵌入初始化 soft prompt 並不能提高性能;3)將 soft 和 hard prompt 結合起來很有幫助;4)所有這些方法都不能很好地處理 few-shot prompt 調優問題。上述觀察結果表明,爲大規模 PLM 找到合適的 prompt 並非易事,而精心設計的 soft prompt token 初始化至關重要。


論文鏈接:https://arxiv.org/pdf/2109.04332.pdf

爲了幫助模型找到合適的 prompt,研究者使用大規模無標記語料庫上的自監督任務對這些 token 進行預訓練。爲了保證預訓練 prompt 的泛化能力,他們將典型分類任務分爲三種:sentence-pair 分類、multiple-choice 分類和 single-text 分類,每種對應一個自監督的預訓練任務。此外,他們發現 multiple-choice 分類比其他分類都要普遍,可以將所有下游分類任務都統一到這種分類中。他們給這種 Pre-trained Prompt Tuning 框架起名爲「PPT」。

研究者使用 3 個 11B 的 PLM(T5-XXL、mT5-XXL、CPM-2)在多個數據集上評估了 PPT 的性能。實驗結果表明,PPT 不僅可以大幅提升 few-shot PT,媲美甚至超越 FT 方法,還能降低 few-shot 學習的方差。除有效性之外,PPT 還保留了現有 PT 方法的參數效率,這對未來在大規模 PLM 上的應用具有重要價值。

PPT 架構概覽

遵循 T5 和 PT 的方法,研究者以一種 text-to-text 的方式解決所有下游任務。如圖 1(d)所示,爲了彌合預訓練和下游任務之間的 objective gap,以 prompt 爲導向的微調將下游任務轉化爲一些完形填空式的目標。以分類任務爲例,給定輸入句子 及其標籤 ,首先應用模式映射 將 x 轉換爲一個新的 token 序列 f(x),其中 V 是 PLM 的詞彙表。f(x)不僅添加了一些 prompt token 作爲提示,還保留了至少一個 masking token <X>,讓 PLM 預測掩碼位置的 token。接下來,使用一個 verbalizer 將 y 映射到一個標籤 token 序列 v(y)。藉助 f(·)和 v(·),分類任務可以用 pattern-verbalizer 對 (f, v) 來表示:


其中,θ表示所有可調參數,特別是 PLM 的參數。爲了方便起見,研究者使用「PVP」來表示這個 pattern-verbalizer 對。

在 PT 中,將一組 soft prompt token P 連接到序列的前面,模型輸入變爲 [P;f (x)]。其中, [·; ·] 爲連接函數。通過單獨調整 P,其他參數固定,將式(1) 替換爲:


由於大規模 PLM 性能強大,在多個全數據情境下,式(2) 被證實與這些 FT 方法具有可比性。但是研究者發現,學習有效的 soft prompt 並不容易,這可能導致模型在各種 few-shot 情境下性能較低。參數的初始化通常對模型的學習難度有很大的影響。一般來說,除了隨機初始化 p 之外,一些研究從 PLM 的詞彙表 V 中採樣詞嵌入作爲初始化。然而,試點實驗的結果表明,現有初始化策略及其簡單變體對基於大規模 PLM 的模型性能影響很小或有消極影響(具體細節參見論文第四部分)。

近年來,預訓練已經被證明是一種尋找模型良好初始化的有效方法。受此啓發,研究者提出預訓練 soft prompt。他們注意到,若干組下游任務與基於無標籤預訓練語料庫的某些自監督任務相關。例如,一些 sentence-pair 分類的任務(如自然語言推理和句子相似度計算),與預訓練階段使用的 NSP 任務相似。如圖 3 所示,這些任務都以兩個句子作爲輸入並比較它們的語義。因此,對於這些 sentence-pair 任務來說,由 NSP 預訓練的 soft prompt 可以是一個很好的初始化。


假設可以將下游任務分爲 m 組:{T_1, T_2, ..., T_m},其中,T_i 是包含 n_i 個下游任務的集合 ,其中, 。針對每個組,研究者設計了一個對應的預訓練任務 ,在這些預訓練任務上預訓練了 soft prompt 之後(所有模型參數固定),研究者得到 m 個預訓練 prompt:{P_1, P_2, ..., P_m}。在預訓練之後,對於 T_i 中的每個任務 研究者繼續優化式(2),使用 P_i 作爲 soft prompt 的初始化。

實驗及結果

之前的工作(Lester 等,2021;Zhang 等,2021b)表明,T5-XXL 在完全數據設置方面可以與 FT 相媲美。因此在實驗部分,對於英文數據集,該研究使用具有 11B 個參數的 T5-XXL 作爲基礎模型來進行 PT。該研究還對各種尺寸的 T5 進行了 FT 實驗,驗證了 T5-XXL 在 few-shot 場景中的表現優於其他尺寸,並且基於 T5-XXL 改進 PT 是有意義的。對於中文數據集,該研究基於 CPM-2 進行 PT。由於 CPM-2 不提供其他尺寸的模型,研究者將其與各種尺寸的 mT5 (Xue 等, 2021) 進行比較。

主要實驗結果

在英文和中文數據集上的結果如下表 4 所示,其中 FT 的部分展示了各種尺寸 T5 模型的全模型微調結果;PT 的部分展示了 PPT 和其他基線的結果。第一個基線是 Vanilla PT,其中的 soft token 是從正態分佈中隨機初始化的;第二個基線是混合策略;然後該研究還考慮了 Lester 等人(2021)使用的 LM Adaption。其中 T5 模型通過語言建模進一步預訓練 10K 步,以減少預訓練和微調之間的差距。除了 PPT 以外,該研究還測試了 PPT 的兩種變體:一種是 Hybrid PPT,將精心設計的 hard prompt 與預訓練的 soft prompt 相結合;另一種是 Unified PPT,其中所有任務都以 multiple-choice 的格式統一。

表 4 給出了關於有效性的結果:

  • 隨着參數數量的增加,FT 的性能有所提升。

  • 在大多數數據集中,PPT 明顯優於 Vanilla PT 和 LM Adaption。

  • PPT 在所有中文數據集和大多數英文數據集上都優於 10B 模型的 FT。

  • PPT 在大多數數據集上會產生較小的方差,相比之下,一般的 few-shot 學習常存在不穩定性,例如 Vanilla PT。



Unified PPT 將所有格式統一爲 multiple-choice 的格式,是 PPT 的另一種變體。表 4 的結果表明 Unified PPT 達到了與 PPT 和 Hybrid PPT 相當的性能,並且優於 soft-prompt 調整基線。

以上所有數據集的分類標籤都少於 5 個,該研究進一步在超過 5 個標籤的數據集上測試了 Unified PPT,實驗結果如下表 5 所示。


採樣效率

研究者探究了當訓練樣本數量增加時 FT、PT 和 PPT 的比較結果。下圖 4 展示了這些方法在 RACEm 和 CB 數據集上的趨勢。從中可以觀察到,對於從 32 到 128 個樣本,PPT 始終優於 Vanilla PT,當數量增長到 256 時,三種方法的性能逐漸收斂。



 
    
    
    

推薦閱讀

(點擊標題可跳轉閱讀)

23個優秀的機器學習數據集

6行代碼!用Python將PDF轉爲word

臺大美女教授陳縕儂:《應用深度學習》

李宏毅《機器學習》視頻教程 PPT

適合入門的深度學習綜述

老鐵,三連支持一下,好嗎?↓↓↓

本文分享自微信公衆號 - 機器學習算法與Python實戰(tjxj666)。
如有侵權,請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”,歡迎正在閱讀的你也加入,一起分享。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章