論文鏈接:https://arxiv.org/abs/1902.10107v1
開源代碼:http://www.robots.ox.ac.uk/~vgg/research/speakerID/
網絡結構
- 主幹網絡:Thin-ResNet,提取frame-level特徵
- NetVLAD或GhostVLAD層:將frame-level的特徵轉換成utterance-level特徵。大多數算法是採用Average pooling層直接對幀維度進行平均,這樣做的缺點是每幀的weight是一樣的,但是實際上每幀對結果的contribution肯定是不一樣的,比如有說話的幀肯定比沒說話幀的contribution高,本文采用的方法其實是自動學習給予每幀不同的權重。
- trainning loss:標準的softmax loss和additive margin softmax(AM-Softmax)