BP神經網絡原理推到&代碼實現

原創

2020-07-02 12:36

本文轉載自：http://blog.csdn.net/acdreamers/article/details/44657439

今天來講BP神經網絡，神經網絡在機器學習中應用比較廣泛，比如函數逼近，模式識別，分類，數據壓縮，數據

挖掘等領域。接下來介紹BP神經網絡的原理及實現。

Contents

1. BP神經網絡的認識

2. 隱含層的選取

3. 正向傳遞子過程

4. 反向傳遞子過程

5. BP神經網絡的注意點

6. BP神經網絡的C++實現

1. BP神經網絡的認識

BP（Back Propagation）神經網絡分爲兩個過程

（1）工作信號正向傳遞子過程

（2）誤差信號反向傳遞子過程

在BP神經網絡中，單個樣本有個輸入，有個輸出，在輸入層和輸出層之間通常還有若干個隱含層。實際

上，1989年Robert Hecht-Nielsen證明了對於任何閉區間內的一個連續函數都可以用一個隱含層的BP網

絡來逼近，這就是萬能逼近定理。所以一個三層的BP網絡就可以完成任意的維到維的映射。即這三層分

別是輸入層（I），隱含層（H），輸出層（O）。如下圖示

2. 隱含層的選取

在BP神經網絡中，輸入層和輸出層的節點個數都是確定的，而隱含層節點個數不確定，那麼應該設置爲多少

才合適呢？實際上，隱含層節點個數的多少對神經網絡的性能是有影響的，有一個經驗公式可以確定隱含層

節點數目，如下

其中爲隱含層節點數目，爲輸入層節點數目，爲輸出層節點數目，爲之間的調節常數。

3. 正向傳遞子過程

現在設節點和節點之間的權值爲，節點的閥值爲，每個節點的輸出值爲，而每個節點的輸出

值是根據上層所有節點的輸出值、當前節點與上一層所有節點的權值和當前節點的閥值還有激活函數來實現

的。具體計算方法如下

其中爲激活函數，一般選取S型函數或者線性函數。

正向傳遞的過程比較簡單，按照上述公式計算即可。在BP神經網絡中，輸入層節點沒有閥值。

4. 反向傳遞子過程

在BP神經網絡中，誤差信號反向傳遞子過程比較複雜，它是基於Widrow-Hoff學習規則的。假設輸出層

的所有結果爲，誤差函數如下

而BP神經網絡的主要目的是反覆修正權值和閥值，使得誤差函數值達到最小。Widrow-Hoff學習規則

是通過沿着相對誤差平方和的最速下降方向，連續調整網絡的權值和閥值，根據梯度下降法，權值矢量

的修正正比於當前位置上E(w,b)的梯度，對於第個輸出節點有

假設選擇激活函數爲

對激活函數求導，得到

那麼接下來針對有

其中有

同樣對於有

這就是著名的學習規則，通過改變神經元之間的連接權值來減少系統實際輸出和期望輸出的誤差，這個規

則又叫做Widrow-Hoff學習規則或者糾錯學習規則。

上面是對隱含層和輸出層之間的權值和輸出層的閥值計算調整量，而針對輸入層和隱含層和隱含層的閥值調

整量的計算更爲複雜。假設是輸入層第k個節點和隱含層第i個節點之間的權值，那麼有

其中有

這樣對學習規則理解更爲深刻了吧。

有了上述公式，根據梯度下降法，那麼對於隱含層和輸出層之間的權值和閥值調整如下

而對於輸入層和隱含層之間的權值和閥值調整同樣有

至此BP神經網絡的原理基本講完。

5. BP神經網絡的注意點

BP神經網絡一般用於分類或者逼近問題。如果用於分類，則激活函數一般選用Sigmoid函數或者硬極限函

數，如果用於函數逼近，則輸出層節點用線性函數，即。

BP神經網絡在訓練數據時可以採用增量學習或者批量學習。

增量學習要求輸入模式要有足夠的隨機性，對輸入模式的噪聲比較敏感，即對於劇烈變化的輸入模式，訓

練效果比較差，適合在線處理。批量學習不存在輸入模式次序問題，穩定性好，但是隻適合離線處理。

標準BP神經網絡的缺陷：

（1）容易形成局部極小值而得不到全局最優值。

BP神經網絡中極小值比較多，所以很容易陷入局部極小值，這就要求對初始權值和閥值有要求，要使

得初始權值和閥值隨機性足夠好，可以多次隨機來實現。

（2）訓練次數多使得學習效率低，收斂速度慢。

（3）隱含層的選取缺乏理論的指導。

（4）訓練時學習新樣本有遺忘舊樣本的趨勢。

BP算法的改進：

（1）增加動量項

引入動量項是爲了加速算法收斂，即如下公式

動量因子一般選取。

（2）自適應調節學習率

（3）引入陡度因子

通常BP神經網絡在訓練之前會對數據歸一化處理，即將數據映射到更小的區間內，比如[0,1]或[-1,1]。

6. BP神經網絡的C++實現

BP神經網絡的C++文件如下

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

爲程序員和新手準備的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：風靡硅谷開發者的 Unstructured Data Meetup 即將登陸中國l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

2024年DataOps趨勢預測：AI不會取代數據工程師

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

數字化轉型新篇章：企業通往智能化的新範式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

O2OA(翱途)開發平臺爲待辦創建配置郵件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

打開神經網絡的黑箱子

卷積神經網絡每個卷積核提取不同的特徵。每個卷積覈對輸入進行卷積，生成一個feature map，這個feature map即體現了該卷積核從輸入中提取的特徵，不同的feature map顯示了圖像中不同的特徵。淺層卷積核提取：邊緣、顏

2024-05-06 00:41:39

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

24小時熱門文章

最新文章

最新評論文章