CNN筆記(4)--目標函數

9.目標函數（損失函數，代價函數）

9.1分類任務的目標函數

9.1.1 交叉熵損失函數（cross entropy）(SoftMax)

L_{c r o s s e n t r o p y l o s s} = L_{s o f t m a x_l o s s} = - \frac{1}{N} \sum_{i = 1}^{N} \log \frac{e^{h_{y i}}}{\sum_{j = 1}^{C} e^{h_{j}}}

通過指數化變換使網絡輸出 h 轉換爲概率形式

9.1.2 合頁損失函數(hinge loss)

L_{h i n g e l o s s} = \frac{1}{N} \sum_{i = 1}^{N} m a x {0, 1 - h_{y i}}

一般分類任務，交叉熵比hinge更好

9.1.3 坡道損失函數(ramp loss function)

針對噪聲數據和離羣點具備良好的抗噪特性

在分類（迴歸）誤差較大區域進行了“截斷”

L_{r a m p l o s s} = L_{h i n g e l o s s} - \frac{1}{N} \sum_{i = 1}^{N} m a x {0, s - h_{y i}} = \frac{1}{N} \sum_{i = 1}^{N} (m a x {0, 1 - h_{y i}} - m a x {0, s - h_{y i}})

s 指定了“截斷點”的位置
s 取值最好根據分類任務的類別數 C 而定，一般設置爲 s = -1/(C-1)

也被稱爲截斷合頁函數

以上提到的交叉熵損失函數、合頁損失函數和坡道損失函數只是簡單衡量
模型預測值與樣本真實標記之間的誤差從而指導訓練過程，它們並沒有顯式地
將特徵判別性學習考慮到整個網絡訓練中。

9.1.4 大間隔交叉熵損失函數

傳統的softmax中將輸出結果h表示爲全連接層參數W與該層特徵向量 $x_{i}$ 的內積

可變換爲

L_{s o f t m a x l o s s} = - \frac{1}{N} \sum_{i = 1}^{N} \log \frac{e^{| | W_{i} | | | | x_{i} | | \cos (θ_{y i})}}{\sum_{j = 1}^{C} e^{| | W_{j} | | | | x_{i} | | c o s (θ_{j})}}

將第i類分類間隔拉大，由 $c o s (θ_{y i})$ 變爲 $ϕ (θ_{y i})$

得到大間隔交叉熵損失函數

L_{l a r g e_m a r g i n s o f t m a x l o s s} = - \frac{1}{N} \sum_{i = 1}^{N} \log \frac{e^{| | W_{i} | | | | x_{i} | | ϕ (θ_{y i})}}{e^{| | W_{i} | | | | x_{i} | | ϕ (θ_{y i})} + \sum_{j \neq y_{i}} e^{| | W_{j} | | | | x_{i} | | c o s (θ_{j})}}

其中，

ϕ (θ) = {\begin{aligned} \cos (m θ), & 0 \leq θ \leq \frac{π}{m} \\ D (θ), & \frac{π}{m} < θ \leq π \end{aligned}

式中，

D (θ)

滿足單調遞減，且

D (\frac{π}{m} = \cos \frac{π}{m})

，

9.1.5 中心損失函數

L_{c e n t e r l o s s} = \frac{1}{2} \sum_{i = 1}^{N} | | x_{i} - c_{y i} | |_{2}^{2}

其中，

c_{y i}

爲第

y_{i}

類所有深度特徵的均值（‘中心’）

主要考慮控制類內差異，與考慮類間距離的損失函數配合（交叉熵損失函數）

最終目標函數表示爲

L_{f i n a l} = L_{c r o s s e n t r o p y l o s s} + L_{c e n t e r l o s s} (h, y_{i}) = - \frac{1}{N} \sum_{i = 1}^{N} \log \frac{e^{h_{y i}}}{\sum_{j = 1}^{C} e^{h_{j}}} + \frac{λ}{2} \sum_{i = 1}^{N} | | x_{i} - c_{y i} | |_{2}^{2}

式中 $λ$ 爲兩個損失函數的調節項， $λ$ 越大，類內差異比重越大

9.2 迴歸任務的損失函數

基本概念：殘差

9.2.1 $l_{1}$ 損失函數

對N個樣本：

L_{l_{1} l o s s} = \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 1}^{M} | l_{t}^{i} |

9.2.2 $l_{2}$ 損失函數

對N個樣本

L_{l_{1} l o s s} = \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 1}^{M} (l_{t}^{i})^{2}

兩個損失函數在迴歸精度上相差無幾，某些情況，

l_{2}

可能略優，速度也更快

9.2.3 Tukey’s biweight 損失函數（魯棒損失函數）

非凸損失函數

可以克服迴歸任務中的離羣點或樣本噪聲對整體迴歸模型的干擾影響

L_{T u k e y^{'} s b i w e i g h t l o s s} = {\begin{aligned} \frac{c^{2}}{6 N} \sum_{i = 1}^{N} \sum_{t = 1}^{M} [1 - (1 - (\frac{l_{t}^{i}}{c})^{2})^{3}], & i f | l_{t}^{i} | \leq c \\ \frac{c^{2} M}{6}, & o t h e r w i s e \end{aligned}

常數c決定函數拐點

9.3 其他任務的目標函數

標記分佈問題 區別於分類問題的離散標記，也不同於迴歸問題的連續標記

語義分割

以一定程度緩解多標記任務中的類別不確信問題

利用softmax 將輸出結果h轉換爲合法分佈

針對預測的標記向量（標記分佈） $\hat{y}$ ,使用KL散度衡量與真實標記向量y的誤差

L_{K L l o s s} = \sum_{k} y_{k} \log \frac{y_{k}}{{\hat{y}}_{k}}

由於

y_{k}

爲常量，等價於

L_{K L l o s s} = - \sum_{k} y_{k} \log {\hat{y}}_{k}

參考文獻：解析卷積神經網絡—深度學習實踐手冊引用塊內容

CNN筆記(4)--目標函數

9.目標函數（損失函數，代價函數）

9.1分類任務的目標函數

9.1.1 交叉熵損失函數（cross entropy）(SoftMax)

9.1.2 合頁損失函數(hinge loss)

9.1.3 坡道損失函數(ramp loss function)

9.1.4 大間隔交叉熵損失函數

9.1.5 中心損失函數

9.2 迴歸任務的損失函數

9.2.1 $l_{1}$ 損失函數

9.2.2 $l_{2}$ 損失函數

9.2.3 Tukey’s biweight 損失函數（魯棒損失函數）

9.3 其他任務的目標函數

Python Algorithms Learning Notes(2)—Implementing Graphs and Trees

Python Algorithms Learning Notes（1）--Asymptotic Notations

深度學習中的數學—Lecture 1(1)

Python 結合bat批處理文件實現密碼保管箱

Tensorflow 10分鐘快速上手

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

CNN筆記(4)--目標函數

9.目標函數（損失函數，代價函數）

9.1分類任務的目標函數

9.1.1 交叉熵損失函數（cross entropy）(SoftMax)

9.1.2 合頁損失函數(hinge loss)

9.1.3 坡道損失函數(ramp loss function)

9.1.4 大間隔交叉熵損失函數

9.1.5 中心損失函數

9.2 迴歸任務的損失函數

9.2.1 l1l1 損失函數

9.2.2 l2l2 損失函數

9.2.3 Tukey’s biweight 損失函數（魯棒損失函數）

9.3 其他任務的目標函數

9.2.1 $l_{1}$ 損失函數

9.2.2 $l_{2}$ 損失函數