原创: [email protected]
时间: 2020/04/16
0x00 Paper
本文看点:
-
用了两个方法来减少参数,保证性能的前提下
- 使用了
bottleneck structure
,参数较少,叫做CENet
Model Param FLOPs Acc TC-ResNet-8 66k 3M 96.1% CENet-6 16.2k 1.95M 93.9% - 引入了GCN,可以获取了更长范围的上下文信息,叫做CENet-GCN
Model Param FLOPs Acc CENet-40 60.9k 16.18M 96.4% CENet-GCN-24 55.6k 9.11M 96.5% - 使用了
-
数据集是Google Speech Command Dataset
-
评估model 指标的源头paper
Deep residual learning for small-footprint keyword spotting (2018年)
-
代码未开源
0x01 为了解决什么问题
-
之前的基于神经网络的KWS方法虽然保证了计算效率,但是对于获取局部感受野和短范围的上下文信息不太行
These methods have demonstrated computational efficiency but failed in capturing local receptive fields and short range context.
-
针对于获取长范围的上下文信息的
RNN models
存在计算成本和延时增加的问题
0x02 提出了哪些创新点
结合GCN和CENet,提出了CENet-GCN
- 什么是CENet?
- Inspired by the ResNet [21], we propose a compact and efficient convolutional network (denoted as CENet) by utilizing the bottleneck architecture with narrow structure.
- 基于
bottleneck architecture
,提出了紧凑高效的卷积神经网络,CENet - 第一个使用GCN,来获取长范围的上下文信息并增强特征信息。
0x03 网络结构
3.1 先获取 MFCC 特征
3.2 CENet
- 目的
- 紧凑的网络结构
- 低计算成本
- 参考ResNet
- 作者还对通道数做了一个消融实验,来验证model的性能和计算效率
- 结构
- Initial block
- 生成特征图
- 增加2 × 2的平均池化层,为了减少特征图的空间size
- Bottleneck block
- 更低的模型复杂性,分为1 × 1; 3 × 3; 1×1
- Connection block
- 升维和降维,通过使用stride = 2
- Initial block
3.3 GCN
-
原理:在特征表示中建模非局部的关系,应用在KWS中,可以获取长范围的上下文信息
Modeling non-local relations in feature representations
-
非局部的关系定义如下:
- 仅用了一层,来保证模型较小的复杂度
- 增强了特征信息(怎么增强的?还没搞清楚)
0x04 实验结果
- 数据集:Google Command Dataset
- 量化后的model 比较:(比res15小,比DS-CNN-S小,后面的是从TC-ResNet截图过来的)
- CENet without GCN
- CENet-GCN; MFCC or fbank as input
下面括号中的acc是以fbank 特征作为输入的,标准的是用MFCC作为输入
- GCN add different stages
- 可视化的特征图(add GCN)
-
ROC
-
可视化的特征图(add GCN)
- ROC