論文地址:https://arxiv.org/abs/1710.09829
github地址:https://github.com/naturomics/CapsNet-Tensorflow
膠囊網絡的理解
我的理解:膠囊網絡是CNN的升級版,它們有很多相似的地方和根本的不同點。
CNN:每個神經元的輸出是標量
CapsuleNet:每個神經元的輸出是向量,也就是多個標量的結合
類比一下CNN和CapsNet:
CNN的過程是(convolution)加權求和,激活函數(relu),獲取更重要的信息(maxpooling)。
CapsNet是加權求和(向量的加權和),激活函數(squashing),獲取更重要的信息(dynamic routing)
公式
輸入:vector
仿射變換:
加權求和:
非線性激活函數:
輸出:vector
CapsNet模型
兩個卷積層(Conv 1, PrimaryCaps),一個全連接層(DigitCaps)
L1. Conv 1層:常規的卷積層,起像素級局部特徵檢測作用
input_size: 28 * 28 * 1
kernel_size: 9 * 9
conv_stride: 1 * 1
Channels : 256
activation: Relu
shape: [None, 28, 28, 1] [None, 20, 20, 256]
parameters: 9 * 9 * 256 + 256 = 20,992
L2. PrimaryCaps層
input_size: 20 * 20 * 256
kernel_size: 9 * 9
conv_stride: 2 * 2
Channels : 32
non-linearity function: Squashing function
8 convolutional units: 256=8 * 32
shape:[None, 20, 20, 256] [None, 6, 6, 32] 8個並行卷積層:
[None, 6, 6, 1, 32]
[None, 6, 6, 1, 32]
…
[None, 6, 6, 1, 32]
對每個卷積層的各個通道在第四個維度上進行合併
=[None, 6, 6, 8, 32]
parameters:(9 * 9 * 256) * 8 * 32 + 8 * 32 = 5,308,672
L3. DigitCaps層
10 capsules with 16D vector output, fully connected
輸入:PrimaryCaps層所有capsule(6 * 6 * 32)的輸出向量 ,向量維度[8, 1]
輸出:,維度爲[16, 1]
shape:[None, 1152, 8, 1] [None, 10, 16, 1]
parameters:
1152 * 10個 : 1152 * 10 * 8 * 16 = 1,474,560
1152 * 10個 : 1152 * 10 * 1 = 11,520