Utterance-level Aggregation For Speaker Recognition In The Wild筆記

論文鏈接:https://arxiv.org/abs/1902.10107v1
開源代碼:http://www.robots.ox.ac.uk/~vgg/research/speakerID/

網絡結構

在這裏插入圖片描述

  • 主幹網絡:Thin-ResNet,提取frame-level特徵
  • NetVLAD或GhostVLAD層:將frame-level的特徵轉換成utterance-level特徵。大多數算法是採用Average pooling層直接對幀維度進行平均,這樣做的缺點是每幀的weight是一樣的,但是實際上每幀對結果的contribution肯定是不一樣的,比如有說話的幀肯定比沒說話幀的contribution高,本文采用的方法其實是自動學習給予每幀不同的權重。
  • trainning loss:標準的softmax loss和additive margin softmax(AM-Softmax)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章