預訓練
預先訓練
我們有兩個相似的任務 A 和 B,任務 A 已經完成了得到了一個模型 A
任務 B(數據量小)
用到了一個特性:CNN 淺層參數通用
任務 B 就可以使用模型 A 的淺層參數,後面的參數通過任務 B 訓練--》1. 凍結(淺層參數不變)2. 微調(變)
任務 B(大數據)可以訓練出模型 B(我還可以使用模型 A 的淺層參數,節省訓練時間,節省成本)
統計語言模型
語言模型
語言(人說的話)+模型(表示某個東西,完成某個任務)
- P(“判斷這個詞的詞性”),P(“判斷這個詞的磁性”)
- “判斷這個詞的
______
”
統計語言模型
用統計的方法去解決上述兩個問題
“判斷這個詞的詞性” = “判斷”,“這個”,“詞”,“的”,“詞性”
這句話是序列(有順序的)
用了一個條件概率的鏈式法則(概率論)
![image-20220611203051818](../../Library/Application Support/typora-user-images/image-20220611203051818.png)
通過這個法則,我們可以求出每一個詞出現的概率,然後連乘,就是這句話出現的概率
解決第二個問題:
“判斷這個詞的__
”
P(w_next | “判斷”,“這個”,“詞”,“的”) (1)
詞庫(詞典)V--》新華字典,高處一個集合,把所有詞裝到集合 V 裏
把集合裏的每一個詞,都進行上一步(1)的計算
詞庫 V = { “詞性”, “火星”}
P(詞性| “判斷”,“這個”,“詞”,“的”)
P(火星| “判斷”,“這個”,“詞”,“的”)
P(詞性| “判斷”,“這個”,“詞”,“的”,……, “……”)
![image-20220611203813910](../../Library/Application Support/typora-user-images/image-20220611203813910.png)
n 元統計語言模型
P(詞性|“這個”,“詞”,“的”)
P(火星| “這個”,“詞”,“的”)
P(詞性|“詞”,“的”)
P(火星|“詞”,“的”)
P(詞性|“的”)
P(火星|“的”)
把 n 個詞,取 2 個詞(2 元),取 3 個詞(3 元)
如何去計算
“詞性是動詞”
“判斷單詞的詞性”
“磁性很強的磁鐵”
“北京的詞性是名詞”
𝑃(詞性|的) = \(\frac{cout(詞性,的)}{count(的)}\) = \(\frac{2}{3}\)
平滑策略
P(策略|平滑) = \(\frac{0}{0}\)
![image-20220611204401168](../../Library/Application Support/typora-user-images/image-20220611204401168.png)
統計語言模型
語言模型:計算一句話的概率,計算下一個詞可能是什麼
統計語言模型:統計的方法去解決語言模型的問題(條件概率)
a 元語言模型:只取 a 個詞(馬爾科夫鏈)
平滑策略:
下節課:神經網絡語言模型
統計語言模型:神經網絡的方法去解決語言模型的問題