Loss函數通常作用於一個batch
在計算loss時,我們不會用一條數據去求梯度,進行優化。這樣會導致loss波動較大,而且不利於發揮計算機並行計算的能力。我們會選擇一個batch的數據,用其均值求梯度,進行優化
# 求batch內的均值
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
作者:縱橫
鏈接:https://www.zhihu.com/question/27700702/answer/459971765
來源:知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。