人工智能之深度學習基礎知識總結，強烈推薦！

原創

2020-06-16 11:17

1 線型迴歸
預測氣溫、預測銷售額、預測商品價格等
模型：權重，偏差
模型訓練：feed 數據學習模型參數值，使得誤差儘可能小
訓練集、測試集、驗證集、樣本、標籤、特徵
損失函數：迴歸常用平方誤差函數；
優化算法：小批量隨機梯度下降（每次選一小批樣本訓練參數），每批樣本大小叫做 batch size
學習率：正數
超參數：不是通過訓練學出的，如學習率，批量大小
網絡輸出層只有一個神經元節點
全連接層：輸出層中的神經元和輸入層中各個輸入完全連接
基本要素：模型、訓練數據、損失函數和優化算法
2 softmax 迴歸
圖像分類、垃圾郵件識別、交易詐騙識別、惡意軟件識別等
softmax運算符將輸出值變換成值爲正，且和爲1的概率分佈
交叉熵損失函數：更適合衡量兩個概率分佈差異

softmax 迴歸是一個單層神經網絡，輸出個數等於類別個數
3 多層神經網絡

激活函數：一種非線性函數
ReLU函數：只保留正數元素，負數元素清零
sigmoid函數：將元素值變換到0到1
tanh(雙曲正切)：元素值變換到-1到1
4 模型選擇
模型在訓練集上更準確時，不代表在測試集上就一定準確
訓練誤差：訓練數據集上表現出的誤差；泛化誤差：模型在測試集上表現的誤差期望
機器學習需要關注降低泛化誤差
模型選擇：評估若干候選模型的表現並從中選擇模型
候選模型可以是有着不同超參數的同類模型
驗證集：預留訓練和測試集之外的數據；折交叉驗證：訓練集分成份，共次輪詢訓練集
欠擬合：模型無法得到較低的訓練誤差
過擬合：模型的訓練誤差遠小於測試集上的誤差
模型複雜度：低，容易欠擬合；高，容易過擬合
數據集大小：訓練樣本少，尤其少於學習參數數時，容易過擬合；層數多時儘量數據大些
5 必知技巧
過擬合解決措施之一：權重衰減，常用L2正則
L2懲罰係數越大，懲罰項在損失函數中比重就越大
丟棄法(dropout)：一定概率丟棄神經元

正向傳播：沿着輸入層到輸出層的順序，依次計算並存儲模型的中間變量
反向傳播：從輸出層到輸入層參數調整過程
訓練深度學習模型時，正向傳播和反向傳播間相互依賴
數值穩定性的問題：衰減和爆炸
層數較多時容易暴露，如每層都是一個神經元的30層網絡，如果權重參數爲0.2，會出現衰減；如果權重參數爲2，會出現爆炸
權重參數初始化方法：正態分佈的隨機初始化；Xavier 隨機初始化。
6 思維導圖
以上1-5節的完整思維導圖，製作出來方便大家更好學習：