CENet-GCN (2019年)

原創

2020-04-19 01:15

原创: [email protected]
时间: 2020/04/16

文章目录

0x04 实验结果

0x00 Paper

paper: Small-footprint Keyword Spotting with Graph Convolutional Network

科普：Fbank 和 MFCC 的区别

本文看点：

用了两个方法来减少参数，保证性能的前提下
- 使用了bottleneck structure，参数较少，叫做CENet
Model Param FLOPs Acc

TC-ResNet-8 66k 3M 96.1%

CENet-6 16.2k 1.95M 93.9%
- 引入了GCN，可以获取了更长范围的上下文信息，叫做CENet-GCN
Model Param FLOPs Acc

CENet-40 60.9k 16.18M 96.4%

CENet-GCN-24 55.6k 9.11M 96.5%
数据集是Google Speech Command Dataset
评估model 指标的源头paper

Deep residual learning for small-footprint keyword spotting (2018年)
代码未开源

0x01 为了解决什么问题

之前的基于神经网络的KWS方法虽然保证了计算效率，但是对于获取局部感受野和短范围的上下文信息不太行

These methods have demonstrated computational efficiency but failed in capturing local receptive fields and short range context.
针对于获取长范围的上下文信息的RNN models存在计算成本和延时增加的问题

0x02 提出了哪些创新点

结合GCN和CENet，提出了CENet-GCN

什么是CENet？

Inspired by the ResNet [21], we propose a compact and efficient convolutional network (denoted as CENet) by utilizing the bottleneck architecture with narrow structure.

基于bottleneck architecture，提出了紧凑高效的卷积神经网络，CENet
第一个使用GCN，来获取长范围的上下文信息并增强特征信息。

0x03 网络结构

3.1 先获取 MFCC 特征

3.2 CENet

目的
- 紧凑的网络结构
- 低计算成本
参考ResNet
作者还对通道数做了一个消融实验，来验证model的性能和计算效率
结构
1. Initial block
  - 生成特征图
  - 增加2 × 2的平均池化层，为了减少特征图的空间size
2. Bottleneck block
  - 更低的模型复杂性，分为1 × 1; 3 × 3; 1×1
3. Connection block
  - 升维和降维，通过使用stride = 2

3.3 GCN

原理：在特征表示中建模非局部的关系，应用在KWS中，可以获取长范围的上下文信息

Modeling non-local relations in feature representations
非局部的关系定义如下：

仅用了一层，来保证模型较小的复杂度
增强了特征信息（怎么增强的？还没搞清楚）

0x04 实验结果

数据集：Google Command Dataset
量化后的model 比较：（比res15小，比DS-CNN-S小，后面的是从TC-ResNet截图过来的）
CENet without GCN

CENet-GCN; MFCC or fbank as input

下面括号中的acc是以fbank 特征作为输入的，标准的是用MFCC作为输入

GCN add different stages

可视化的特征图（add GCN）

ROC
可视化的特征图（add GCN）

ROC

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

SMALL-FOOTPRINT KEYWORD SPOTTING ON RAW AUDIO DATA WITHSINC-CONVOLUTIONS

原創: [email protected] 時間: 2020/04/15 文章目錄0x00 Paper0x01 爲了解決什麼問題0x02 提出了哪些創新點2.1 提出了一個更加節能的神經網絡2.2 使用了SincCo

2020-07-02 04:04:53

stream_kws_cnn

文章目錄0x00 parser 超參傳入0x01 數據預處理0x02 model 此處選擇 CNN2.1 輸入( 此處 flags.preprocess = mfcc)2.2 輸入增維2.3 構建網絡2.3.1 stream()函

2020-07-02 04:04:53

TC-ResNet

原創: [email protected] 時間: 2020/04/14 參考: 實時語音喚醒文章目錄0x00 Paper0x01 爲了解決什麼問題1.1 KWS系統中的主要的問題0x02 提出了哪些創新點2.1

2020-07-02 04:04:53

SMALL-FOOTPRINT KEYWORD SPOTTING ON RAW AUDIO DATA WITHSINC-CONVOLUTIONS

原創: [email protected] 時間: 2020/04/15 文章目錄0x00 Paper0x01 爲了解決什麼問題0x02 提出了哪些創新點2.1 提出了一個更加節能的神經網絡2.2 使用了SincCo

2020-07-02 04:04:53

stream_kws_cnn

文章目錄0x00 parser 超參傳入0x01 數據預處理0x02 model 此處選擇 CNN2.1 輸入( 此處 flags.preprocess = mfcc)2.2 輸入增維2.3 構建網絡2.3.1 stream()函

2020-07-02 04:04:53

TC-ResNet

原創: [email protected] 時間: 2020/04/14 參考: 實時語音喚醒文章目錄0x00 Paper0x01 爲了解決什麼問題1.1 KWS系統中的主要的問題0x02 提出了哪些創新點2.1

2020-07-02 04:04:53

An End-to-End Architecture for Keyword Spotting and Voice Activity Detection《端到端框架的语音唤醒词识别检测》

Abstract 我們提出了一個單一的神經網絡架構來完成兩項任務：在線關鍵詞發現和語音活動檢測。我們開發了一種新的推理算法，用於使用Connectionist臨時分類損失函數訓練的端到端遞歸神經網絡，該模型使我們的模型無需重新訓練即可在

图灵与对话

2020-06-17 06:59:05

Convolutional Recurrent Neural Networks for Small-Footprint Keyword Spotting 卷积递归神经网络的小脚印关键词发现

图灵与对话

2020-02-21 12:57:38

Attention-based End-to-End Models for Small-Footprint Keyword Spotting基于注意的小脚印关键字点对点模型

图灵与对话

2020-02-21 12:57:38

A FAR-FIELD TEXT-DEPENDENT SPEAKER VERIFICATION DATABASE AND THE BASELINES

图灵与对话

2020-02-21 12:57:38

24小時熱門文章

最新文章

最新評論文章