目錄
機器學習
- 監督學習(有數據有標籤)
- 無監督學習(有數據無標籤)
- 半監督學習
- 強化學習(陌生環境總結經驗)
- 遺傳算法(淘汰機制)
神經網絡
生物:產生新連接
人工:誤差反向傳遞
卷積神經網絡 CNN
圖片識別,視頻分析,自然語言處理
以塊爲單位,當前與周圍共同加權決定
池化
循環神經網絡 RNN
寫論文,寫程序,作曲
序列化數據,參考以前的狀態
問題:梯度消失,梯度爆炸
解決:長短期記憶 LSTM
自編碼(無監督)
對輸入數據(無監督)進行壓縮 (+ 解壓)。降維
生成對抗網絡 GAN
Generator用隨機數生成,Discriminator判斷
黑盒
神經層的代表特徵可以提取
遷移學習
借鑑已有經驗
梯度下降
局部最優
神經網絡技巧
檢驗神經網絡
訓練數據70% + 測試數據30%
誤差曲線,精確度曲線
特徵
標準化:預處理,使跨度儘量統一
好特徵:有區分度,多維特徵,避免無意義特徵,避免重複特徵,避免複雜特徵
激勵函數
處理不能用線性方程解決的問題,用激勵函數“掰彎”線性函數
過擬合
解決:增加數據量,正則化,dropout
加速神經網絡訓練
SGD:分塊批量
Momentum,AdaGrad,RMSProp,Adam
處理不均衡數據
更多數據,換個評判方式,重組數據,修改算法
批正則化
讓每一層的值在有效的範圍內傳遞
L1 L2 正則化
誤差公式加項
強化學習
分數導向性
不理解環境 | 想象環境並從中學習
基於概率 | 基於價值
回合更新 | 單步更新
在線學習 | 離線學習
Q Learning
Q表——潛在獎勵
Sarsa
更新方式不同
on-policy,在線學習
Sarsa(lambda)
回合更新
Deep Q Network (DQN)
策略梯度 Policy Gradients
Actor Critic
Deep Deterministic Policy Gradient (DDPG)
Asynchronous Advantage Actor-Critic (A3C)
並行運算,有效利用計算資源, 提升訓練效用