機器學習--神經網絡算法系列--交叉熵（Cross_entropy）

原創

2020-02-26 05:41

原文：http://blog.csdn.net/u014313009/article/details/51043064

交叉熵代價函數（Cross-entropy cost function）是用來衡量人工神經網絡（ANN）的預測值與實際值的一種方式。與二次代價函數相比，它能更有效地促進ANN的訓練。在介紹交叉熵代價函數之前，本文先簡要介紹二次代價函數，以及其存在的不足。

1. 二次代價函數的不足

ANN的設計目的之一是爲了使機器可以像人一樣學習知識。人在學習分析新事物時，當發現自己犯的錯誤越大時，改正的力度就越大。比如投籃：當運動員發現自己的投籃方向離正確方向越遠，那麼他調整的投籃角度就應該越大，籃球就更容易投進籃筐。同理，我們希望：ANN在訓練時，如果預測值與實際值的誤差越大，那麼在反向傳播訓練的過程中，各種參數調整的幅度就要更大，從而使訓練更快收斂。然而，如果使用二次代價函數訓練ANN，看到的實際效果是，如果誤差越大，參數調整的幅度可能更小，訓練更緩慢。

以一個神經元的二類分類訓練爲例，進行兩次實驗（ANN常用的激活函數爲sigmoid函數，該實驗也採用該函數）：輸入一個相同的樣本數據x=1.0（該樣本對應的實際分類y=0）；兩次實驗各自隨機初始化參數，從而在各自的第一次前向傳播後得到不同的輸出值，形成不同的代價（誤差）：

實驗1：第一次輸出值爲0.82

實驗2：第一次輸出值爲0.98

在實驗1中，隨機初始化參數，使得第一次輸出值爲0.82（該樣本對應的實際值爲0）；經過300次迭代訓練後，輸出值由0.82降到0.09，逼近實際值。而在實驗2中，第一次輸出值爲0.98，同樣經過300迭代訓練，輸出值只降到了0.20。

從兩次實驗的代價曲線中可以看出：實驗1的代價隨着訓練次數增加而快速降低，但實驗2的代價在一開始下降得非常緩慢；直觀上看，初始的誤差越大，收斂得越緩慢。

其實，誤差大導致訓練緩慢的原因在於使用了二次代價函數。二次代價函數的公式如下：

其中，C表示代價，x表示樣本，y表示實際值，a表示輸出值，n表示樣本的總數。爲簡單起見，同樣一個樣本爲例進行說明，此時二次代價函數爲：

目前訓練ANN最有效的算法是反向傳播算法。簡而言之，訓練ANN就是通過反向傳播代價，以減少代價爲導向，調整參數。參數主要有：神經元之間的連接權重w，以及每個神經元本身的偏置b。調參的方式是採用梯度下降算法（Gradient descent），沿着梯度方向調整參數大小。w和b的梯度推導如下：

其中，z表示神經元的輸入，表示激活函數。從以上公式可以看出，w和b的梯度跟激活函數的梯度成正比，激活函數的梯度越大，w和b的大小調整得越快，訓練收斂得就越快。而神經網絡常用的激活函數爲sigmoid函數，該函數的曲線如下所示：

如圖所示，實驗2的初始輸出值（0.98）對應的梯度明顯小於實驗1的輸出值（0.82），因此實驗2的參數梯度下降得比實驗1慢。這就是初始的代價（誤差）越大，導致訓練越慢的原因。與我們的期望不符，即：不能像人一樣，錯誤越大，改正的幅度越大，從而學習得越快。

可能有人會說，那就選擇一個梯度不變化或變化不明顯的激活函數不就解決問題了嗎？圖樣圖森破，那樣雖然簡單粗暴地解決了這個問題，但可能會引起其他更多更麻煩的問題。而且，類似sigmoid這樣的函數（比如tanh函數）有很多優點，非常適合用來做激活函數，具體請自行google之。

2. 交叉熵代價函數

換個思路，我們不換激活函數，而是換掉二次代價函數，改用交叉熵代價函數：

其中，x表示樣本，n表示樣本的總數。那麼，重新計算參數w的梯度：

其中（具體證明見附錄）：

因此，w的梯度公式中原來的被消掉了；另外，該梯度公式中的表示輸出值與實際值之間的誤差。所以，當誤差越大，梯度就越大，參數w調整得越快，訓練速度也就越快。同理可得，b的梯度爲：

實際情況證明，交叉熵代價函數帶來的訓練效果往往比二次代價函數要好。

3. 交叉熵代價函數是如何產生的？

以偏置b的梯度計算爲例，推導出交叉熵代價函數：

在第1小節中，由二次代價函數推導出來的b的梯度公式爲：

爲了消掉該公式中的，我們想找到一個代價函數使得：

即：

對兩側求積分，可得：

而這就是前面介紹的交叉熵代價函數。

附錄：

sigmoid函數爲：

可證：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

首批！Zilliz 獲得亞馬遜雲科技生成式 AI 合作伙伴能力認證

Zilliz 正式宣佈通過亞馬遜雲科技生成式 AI 能力認證！這一認證不僅肯定了 Zilliz 在人工智能和非結構化數據領域的卓越能力，也標誌着 Zilliz 在推動 AI 技術創新和應用的道路上邁出了重要一步。亞馬遜雲科技生

2024-06-06 14:16:04

Opal 機器學習平臺：愛奇藝數智一體化實踐

01 綜述 Opal 是愛奇藝大數據團隊研發的機器學習平臺，包含特徵生產、樣本構建、模型訓練、模型部署在內的多環節 Bigdata + AI 開發服務，內置多種訓練鏡像、

愛奇藝技術產品團隊

2024-06-01 02:21:16

基於對比稀疏擾動技術的時間序列解釋框架 ContraLSP

開篇近日，由阿里雲計算平臺大數據基礎工程技術團隊主導，與南京大學、賓夕法尼亞州立大學、清華大學等高校合作，解釋時間序列預測模型的論文《Explaining Time Series via Contrastive and Locally

2024-06-01 00:25:50

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

還能報名！風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國！

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-29 02:18:59

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

文心大模型免費辣，動手搓點啥慶祝一下吧

5月21日下午，百度智能雲宣佈文心大模型的兩款主力模型ENIRE Speed、ENIRE Lite全面免費，即刻生效。這兩款大模型都是今年3月剛剛發佈的，均支持8K和128k上下文長度。可以說，這是百度最新的模型

2024-05-24 12:13:22

風控指南：國內車險欺詐呈現四大趨勢

2024年4月11日，國家金融監督管理總局官網發佈國家金融監督管理總局關於《反保險欺詐工作辦法（徵求意見稿）》公開徵求意見的公告。《徵求意見》共6章、37條，明確反保險欺詐工作目標是建立“監管引領、機構爲主、行業聯防、各方協同”四位一體的

2024-05-23 12:16:45

五款擴展組件齊發 —— Volcano、Keda、Crane-scheduler 等，邀你體驗

今年 3 月，KubeSphere 啓動了首屆擴展組件開發者訓練營，吸引了 60 名開發者報名。經過一個半月的密集培訓和實戰演練，這些開發者成功打造了五款創新的擴展組件，現已全部上架至 KubeSphere Marketplace，歡迎大家

2024-05-23 11:17:40

基於 Milvus + LlamaIndex 實現高級 RAG

隨着大語言模型（LLM）技術的發展，RAG（Retrieval Augmented Generation）技術得到了廣泛探討和研究，越來越多的高級 RAG 檢索方法也隨之被人發現，相對於普通的 RAG 檢索，高級 RAG 通過更深化的技術細

2024-05-22 21:25:18

站在岸上學不會游泳 | 算法校招生的高效成長總結

在這個由數據編織、由算法驅動的時代，AI大模型正成爲推動社會進步的重要力量。我們不僅是變革的見證者，更是推動者和塑造者。感謝零售UP技術人欄目的邀請，本文藉此機會回顧一下自己的算法之路上的一些故事和思考，希望能帶給讀者一些幫助。介紹自

2024-05-22 11:56:42

全球廠商之最，華爲17篇論文入選國際數據庫頂會ICDE

本文分享自華爲雲社區《全球廠商之最，華爲GaussDB&GeminiDB，17篇論文入選國際數據庫頂會ICDE》，作者：GaussDB 數據庫。 5月13-17日，國際數據庫頂級學術會議 ICDE 2024 於荷蘭烏得勒支舉行。華爲Gau

2024-05-22 10:58:13

Gen AI 連接非結構化數據，Unstructured Data Meetup 第二場官宣杭州！

定了！6 月 15 日，備受硅谷開發者喜愛的 Unstructured Data Meetup 第二場將在杭州舉辦！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 202

2024-05-20 21:25:07

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

24小時熱門文章

最新文章

最新評論文章