原文: https://machinethoughts.wordpress.com/2019/07/14/a-consistency-theorem-for-bert/
BERT[1] 看起來和僞-似然函數有關。這其實可以導出關於 BERT 的一個一致性定理。查閱論文[2],發現 Wang 和 Cho 也指出了 BERT 和 僞-似然函數之間的聯繫。Wang 和 Cho 將 BERT 看成是 Markov 隨機場 (MRF) 並使用了 Gibbs 採樣來採樣句子。但他們沒有提及一致性。本文將探討 BERT 作爲一個語言模型——作爲在完整語句上的一個概率分佈——是一致的。
對僞-似然函數的經典證明假設了實際的總體分佈由 MRF 權重的某個設定定義的。對於 BERT 我們將這個假設替換成深度模型具備準確地建模不同條件分佈的能力。因爲深度模型直覺上比通過手工設計的特徵的線性 MRF 更具有表達能力,這個深度表達性假設看起來比經典假設更弱。
除了假設普遍表達能力,我會假設訓練找到了一個全局最優點。對於完全優化的假設目前是很多有關深度學習的直覺理解的基礎支撐。考慮 GAN 的一致性定理,這個定理假設了生成器和判別器的普遍表達能力和完全優化。儘管這些假設看起來比較暴力,GAN 一致性定理已經成爲了 GAN 架構的設計思路的源頭。因此,這樣暴力的假設的價值不應該被低估。
爲了訓練 BERT,我們假設一個在 個詞 的語句塊(或者語句)上的總體分佈. 我將假設 BERT 是通過在每個塊中空出一個詞來進行訓練的。這個單個詞-空出假設對證明有用,不過在實踐中不一定重要。而且我相信證明可以被修改來處理 XLNet,它是爲每個塊預測單個拿出的序列而不是多個獨立建模的空出。
令 爲 BERT 的參數並令 爲 BERT 在第 個詞空出時分配給第 個詞的所有詞上的分佈。BERT 的訓練目標函數是:
其中 表示條件於 上的交叉熵. 每個交叉熵項是在 時是單獨最小化的。我們普遍假設是存在一個 同時滿足所有這些條件分佈。基於這個假設,對所有的 和 ,我們有:
現在我必須定義由 給定的語言模型(完全語句分佈)。對此,我使用了 Gibbs 採樣——定義在通過隨機選擇 和使用一個來自 的樣本來替換 之上的隨機過程。這個語言模型現在定義成爲這個 Gibbs 採樣過程的穩定分佈。但是這個 Gibbs 過程是 和通過總體條件分佈來進行 Gibbs 採樣相同的。所以穩定分佈必然是 。 證明畢。
-
BERT, or Bidirectional Encoder Representations from Transformers, is a new method of pre-training language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. google-research bert ↩
-
Alex Wang, Kyunghyun Cho. BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model 1902.04904 ↩