交叉熵:
用於多分類的損失函數,熵越大模型越不確定,熵越小模型越確定,即優化模型目的是最小化交叉熵
公式如下:
例子:
信息熵:
信息熵是消除不確定性所需信息量的度量,也即未知事件可能含有的信息量,信息熵大小與觀測者的觀測粒度有關,即在這個觀測分佈下熵的大小
相對熵(KL散度)
如果對於同一個隨機變量有兩個單獨的概率分佈,則我們可以使用KL散度來衡量這兩個概率分佈之間的差異。
比如一個是模型得到的概率分佈一個是真實分佈,那麼這倆個分佈分差異可以用相對熵表示
也可以這麼計算(可以看下面鏈接推導):
相對熵可以衡量兩個隨機分佈之間的距離,當兩個隨機分佈相同時,它們的相對熵爲零,當兩個隨機分佈的差別增大時,它們的相對熵也會增大。所以相對熵可以用於比較文本的相似度,先統計出詞的頻率,然後計算相對熵。另外,在多指標系統評估中,指標權重分配是一個重點和難點,也通過相對熵可以處理
參考鏈接:https://blog.csdn.net/b1055077005/article/details/100152102