原創: [email protected]
時間: 2020/04/11
文章目錄
0x00 Paper
0x01 爲了解決什麼問題
-
爲了用戶能夠自定義他們自己的關鍵詞而不用
retrain
整個model -
之前的訓練的
model
需要提前知道關鍵詞和固定的關鍵詞訓練集
之前的模型的損失方式有三種:
- 交叉熵
- CTC
- a max-pooling loss
0x02 提出了哪些創新點
-
量化LSTM的方法
-
設計了CTC訓練結果的置信度
-
提出了一個更快的解碼方式,除了pruning,比跳幀還快
-
和不同的方式做一個結果比較
- LVCSR
- keyword-filler
- CTC
0x03 文章body
第二節介紹了網絡架構和量化訓練的方式
第三節介紹了關鍵詞檢測機制,置信度和優化器設置
第四節介紹了實驗相關
第五節介紹了實驗的結果
3.1 第二節 ACOUSTIC MODEL
-
第一部分:多層LSTM
-
輸入五幀連續的MFCC特徵,每三幀比較一次
-
-
第二部分:量化
-
量化的靈感來源:
- B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard, H. Adam,
and D. Kalenichenko, “Quantization and training of neural networks
for efficient integer-arithmetic-only inference,” in Proceedings of the
IEEE Conference on Computer Vision and Pattern Recognition, 2018,
pp. 2704–2713.
- B. Jacob, S. Kligys, B. Chen, M. Zhu, M. Tang, A. Howard, H. Adam,
-
權重在訓練之後被量化,量化範圍爲最大值或者最小值的2的n次冪
-
激活函數在訓練期間被量化,固定的範圍
-
因爲LSTM通常包含了飽和的激活函數,範圍在(-1,1),輸入也是固定,設爲(-4,4)
Using the same fixed range for all activation
function inputs and outputs allows to have a single lookup
table at inference for the sigmoid and the tanh functions,
making the model faster to execute. -
LSTM 包含了很多的額外項,量化參數相同更方便量化操作
-
內部狀態 $ c_t $無界,沒經過一個step自動加1。如果使用最大最小化量化,將會丟失較大的精度
-
-
-
第三部分:CTC loss 和不同超參下的model測評
-
CTC loss 是端到端的,所以不需要對齊數據(對齊啥?此處存疑)
-
對於長度不一的輸入和音素序列,作者是這樣處理的
- CTC 增加一個P,
- 定義一個簡單的映射B,$ P’^* -> P^* $,移除重複符號和空白
- 最終的音素序列
-
3.2 第三節 KEYWORD SPOTTING METHOD
- 第一部分:設了一個閾值檢測關鍵詞
-
第二部分:兩個策略發現更好的關鍵詞序列
-
a greedy approach
發現就歸類,始終保持分數最高的置信度,去除重複的
缺點:不能保證輸出是最好的關鍵詞,比如
launch my playlist
,關鍵詞是play和playlist,會被檢測爲play -
a full search
所有的序列都會被考慮到,並選擇具有最大累積置信度的不重疊關鍵字的序列
-
-
第三部分:更高的置信度設計
-
CTC 自帶的置信度
缺點:只做了局部的預測
-
長度歸一化
the length of the segment is to normalize it by the segment length
-
No-blank normalization
blank的影響較大
-
似然比
關鍵詞和模型預測的序列之間的似然比,1爲對應,0爲不同
-
Normalization and ratio
沒搞清楚,說是長度和空白對模型有影響,好像是將上面的長度歸一化和似然比結合了一下,順便末尾作者提到了No-blank雖然得到了較低的置信度,但是還是幾個方法中最可靠的
-
-
第四部分:更快的解碼
-
Boundaries subsampling
好像是將三幀一次邊界檢測改成了兩次,僅對後處理有一定的影響
-
Maximum segment length
限定長度而不是最大長度
-
Pruning
丟棄平均負似然對數超過2.5的序列
-
忽略空白幀
-
-
第五部分:在線關鍵詞檢測
3.3 第四節 EXPERIMENTAL SETUP
- 數據集:the Librispeech dataset
- 評價指標:
- F1 scores 對於關鍵詞
- ratio 精確匹配到關鍵詞在句中
0x04 other
-
偏向於語言理解系統
spoken language understanding (SLU) systems
-
keyword-filler 框架
filler model 的提出是爲了解決長度不一樣的問題
同時有一個background model
用來計算關鍵詞和其他詞之間的似然比 -
特點:
- 能夠自定義關鍵詞
- 足夠小,能在微處理器上跑起來
- 實時性
- 高準確率