TensorFlow2.0_交叉熵原理簡介

原創

Scc_hy

2020-05-17 12:57

文章目錄

一、香農熵

二、交叉熵（Cross Entropy）

一、香農熵

1.1 香農熵原理公式

在將交叉熵的時，先講一下熵。
$H(P) = -\sum{p_ilog_2{p_i}}$

熵越大，代表不確定性越大，信息也就越大。

1.2 香農熵tf示例

比如：
對於一個三分類：真實標籤(one-hot之後) y_true = [0, 1, 0]，那麼其熵就是0 。
TIP:關於tf2.0的任意對數底，以log2爲例

y = tf.constant([2., 4., 8.])
# log2
tf.math.log(y)/tf.math.log([2.])

計算y_true的熵

y = tf.constant([1])
y_onehot = tf.one_hot(y, depth=3)

def H_p(y_):
    """
    計算熵
    """
    # 0- 計算熵
    h_lst = -tf.math.log(y_) / tf.math.log(2.0)
    # 1- 修正-np.inf
    # 1-1- 獲取非-np.inf位置
    mask = h_lst.numpy() == np.inf 
    indices = tf.where(mask)
    # 1-2- 更新-np.inf
    if sum(mask[0]):
        update_zero = np.zeros(len(indices))
        h_lst_update = tf.scatter_nd(indices, update_zero, h_lst.shape)
    else:
        h_lst_update = h_lst
    return tf.reduce_sum(h_lst_update)


"""
>>> H_p(y_onehot)
<tf.Tensor: id=449, shape=(), dtype=float64, numpy=0.0>
>>>
"""

當預測值y_pred 返回爲[0.1, 0.7, 0.2]是後的熵：
H_p(tf.constant([0.1, 0.7, 0.2)) = 6.158429

二、交叉熵（Cross Entropy）

2.1 交叉熵原理公式

交叉熵公式如下：
$H(p, q) = -\sum{p_ilog_2{q_i}}$
可以分解成p的熵與p,q的KL散度。
$H(p, q) = H(p) + D_{kl}{(p|q)}$
KL散度是用於衡量兩個分部之間的距離的指標，當p=q時，距離爲0，定義如下：
$D_{kl}{(p|q)} = \sum{p_ilog_2{\frac{p_i}q_i}}$
簡單推導：
$H(p, q) = -\sum{p_ilog_2{p_i}} + \sum{p_ilog_2{\frac{p_i}q_i}}$
$= -\sum{p_ilog_2{p_i}} + \sum{p_ilog_2 p_i} - \sum{p_ilog_2 q_i}= -\sum{p_ilog_2{q_i}}$

2.2 one-hot下交叉熵的變形

因爲交叉熵可以分解成p的熵與p,q的KL散度，當one_hot情況下H(y)=0
所以：
$H(y, y_{pred}) = H(y) + D_{kl}{(y|y_{pred})} = D_{kl}{(y|y_{pred})}$
$= \sum{y_ilog_2{\frac{y_i}y_{predi}}}$
$= 0+0+...+1log_2{\frac{1}y_{predi}}=-log_2y_{predi}$

可以看到， $L$ 只與真實類別i上的概率 $y_{predi}$ 有關，對應概率 $y_{predi}$ 越大，H(y, y_pred) 越小，當對應概率爲1時，交叉熵H(y, y_pred)取得最小值0，此時網絡輸出y_pred與真實標籤y完全一致，神經網絡取得最優狀態。

最小化交叉熵的過程也就是最大化政企類別的預測概率的過程。

2.3 tf2 實現


def crossentropy(y_, y_p):
    mask = y_.numpy() ==  1.0
    indices = tf.where(mask)
    # print(mask, indices)
    ypi = tf.gather_nd(y_p, indices)
    out = - tf.math.log(ypi) / tf.math.log(2.0)
    return tf.constant([0.]) if sum(out.numpy() == np.inf) else out

crossentropy( y_onehot, tf.constant([[0.1, 0.9, 0.2]]) )

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

TensorFlow2.0_交叉熵原理簡介

文章目錄

一、香農熵

1.1 香農熵原理公式

1.2 香農熵tf示例

二、交叉熵（Cross Entropy）

2.1 交叉熵原理公式

2.2 one-hot下交叉熵的變形

2.3 tf2 實現

C語言--右移左移

一個開源且全面的C#算法實戰教程

12款高效開源Wiki系統推薦，打造團隊知識管理利器

dotnet 基於 DirectML 控制檯運行 Phi-3 模型

自定義MyBatis插件

常用的 Git 指令

sm4加密工具類

pyspark基本操作_基於pyspark-algorithms

Datawhale_溫習概率統計(1)——1_古典概型，條件概率，貝葉斯公式

Python——繪製簡單分類器邊界(決策樹&SVM)

一個n邊正三角形內有幾個正三角形(面試題覆盤)

TensorFlow2.0_交叉熵原理簡介

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結