在大规模翻译任务的经验中,简单的堆叠LSTM层最多可以工作4层,很少工作6层,超过8层就很差了。
Redisual connection有助于梯度的反向传播,能够帮助lstm堆叠更多层,实现更深层的训练,但是一般也就是最多到8层。
参考文献:
在大规模翻译任务的经验中,简单的堆叠LSTM层最多可以工作4层,很少工作6层,超过8层就很差了。
Redisual connection有助于梯度的反向传播,能够帮助lstm堆叠更多层,实现更深层的训练,但是一般也就是最多到8层。
参考文献:
利用torchsummary觀察每一層的情況 1)按照方式 pip install torchsummary 2)