背景
上篇博客嘗試了數據增強,取得了不錯的效果,但是結果仍舊不是特別好。所以這次又從訓練的角度進行了一些優化,包括:
- BatchNorm
- 使用變化的學習率
- 繼續增加epoch
最終實驗結果還是非常棒的,代碼和結果如下。目前已經沒有動力繼續訓練了,因爲原則上的方法基本上都已經考慮到了。後續如果要繼續改進,無非換更深的網絡(利用ResNet18),和增加更多的迭代次數。
https://www.kaggle.com/yannnnnnnnnnnn/kernel5d66c76231?scriptVersionId=28281919
方法
1、增加BatchNorm
關於BatchNorm的原理,此處就不展開介紹了,可以參考《Dive into DL PyTorch》;其作用主要是防止模型的過擬合,提高泛化能力。
代碼如下,只需要簡單的在代碼裏添加 nn.BatchNorm2d(num_feature)
和nn.BatchNorm1d(num_feature)
即可。
class YANNet(nn.Module):
def __init__(self):
super(YANNet,self).__init__()
self.conv = nn.Sequential(
# size: 28*28
nn.Conv2d(1,8,3,1,1), # in_channels out_channels kernel_size stride padding
nn.BatchNorm2d(8),
nn.ReLU(),
nn.Conv2d(8,16,3,1,1),
nn.BatchNorm2d(16),
nn.ReLU(),
nn.MaxPool2d(2),
# size: 14*14
nn.Conv2d(16,16,3,1,1),
nn.BatchNorm2d(16),
nn.ReLU(),
nn.Conv2d(16,8,3,1,1),
nn.BatchNorm2d(8),
nn.ReLU(),
nn.MaxPool2d(2)
)
self.fc = nn.Sequential(
# size: 7*7
nn.Linear(8*7*7,256),
nn.BatchNorm1d(256),
nn.ReLU(),
nn.Dropout(0.5),
nn.Linear(256,256),
nn.BatchNorm1d(256),
nn.ReLU(),
nn.Dropout(0.5),
nn.Linear(256,10)
)
def forward(self, img):
x = self.conv(img)
o = self.fc(x.view(x.shape[0],-1))
return o
2、使用變化的學習率
稍微搞過梯度下降的人都知道,固定的學習率並不是什麼好主意,因爲最好的思路是使用一個可以自動變化的學習率。在PyTorch中,對應的代碼也非常簡單,如下。只需要在代碼裏增加lr_scheduler.StepLR
即可,其每間隔step_size
個epoch
,就將當前的學習率乘上gamma
。當然PyTorch還提供了很多別的方法,我也不贅述了。
model = YANNet()
error = nn.CrossEntropyLoss()
if torch.cuda.is_available():
model = model.cuda()
error = error.cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=0.1)
scheduler = lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)
num_epoc = 120
from torch.autograd import Variable
for epoch in range(num_epoc):
epoc_train_loss = 0.0
epoc_train_corr = 0.0
epoc_valid_corr = 0.0
print('Epoch:{}/{}'.format(epoch,num_epoc))
model.train()
scheduler.step() #降低學習率
pass
...
3、增加epoch
考慮到學習率的變化,增加epoch是必然的,目前是num_epoc = 120
結論
總體而言,本次實驗還是很有收穫的,精度從94%->98%->99%。最後也非常感謝,Kaggle提供的免費GPU,非常方便和好用。