神經網絡(Neural Network)概述

原創

及时澍雨Timely

2020-02-20 19:50

1.神經網絡概況

1943年，心理學家W.Mcculloch和數理邏輯學家W. Pitts根據生物神經元功能和結構，提出M-P神經元模型。

1957年，Rosenblatt提出感知機MLP模型。

Rosenblatt, Frank.x. Principles ofNeurodynamics:Perceptrons and the Theory of Brain Mechanisms. Spartan Books, Washington DC,1961.

1981年，Kohonen於1981年提出了自組織映射(SOM)網絡。
T. Kohonen,Self-organizedformation of topologically correct feature maps, Biological Cybernetics.1982.43:59-69.

1982年，Hopfield提出Hopfield網絡，用於聯想記憶和優化。
John J. Hopfield, Neural networks andphysical systems with emergent collective computational abilities, Proc. Natl. Acad. Sci.USA, vol. 79 no. 8, pp. 2554–2558, April 1982.
1986年，Rumelhart和McCelland等提出了誤差反向傳播(BP)算法，用於多層前饋神經網絡的優化。迄今爲止應用最廣的神經網絡學習算法。
Rumelhart, David E.; Hinton,Geoffrey E.; Williams, Ronald J. (8 October 1986).Learningrepresentations byback-propagatingerrors.Nature 323 (6088): 533–536.
------------------------------------------------------------------------------------------------------------------

2.神經網絡的學習機理

神經網絡分爲兩種，一種叫做有導師學習，一種叫做無導師學習。有導師學習是感知器的學習規則；而無導師學習是認知器的學習規則。典型的有導師學習網絡有BP網絡，Hopfield網絡；而典型的無導師學習網絡有ART網絡，Kohonen網絡。所謂的“導師”，是指的“導師信號”，也就是學習過程中的監督信號，是在神經網絡學習中由外部提供的模式樣本信號。

1.)感知器的學習結構

感知器的學習是神經網絡最經典的學習。如下圖所示，感知器的學習分爲三個部分：輸入部、訓練部和輸出部。某種模式樣本X從輸入部輸入到感知器中，經過訓練部的權值處理後，從輸出部輸出；而輸出部的實際輸出與導師信號(期望輸出信號)做比較，產生誤差信號e，這裏反應了實際與期望(現實和理想)的差距；然後通過誤差信號e調整訓練部的權值W，使得新產生的W能讓誤差信號儘可能的小(實際與期望儘可能接近)，從而達到訓練的作用。

下圖是神經網絡中具體的結構圖。輸入樣本X是一個n維向量，記爲{X1,X2,...,Xn}，相應的權值也爲一個n維向量，記爲{W1,W2,...,Wn}。訓練過程如上所述，X的n個元素與對應的n個權值分別相乘再求和，得到輸出u，輸出與期望輸出相減得到誤差信號e，誤差通過權值調整機制修改相應的W權值，使得誤差最小。這也預示着此種訓練的判決條件是“最小誤差準則”。

2.)感知器的學習算法

感知器是有單層計算單元的神經網絡，由線性元件和閾值元件組成。如圖，線性元件指的是輸入向量與權值的加權求和操作，而閾值元件指的是得到的結果 u 要經過一個非線性處理 f 得到最終的輸出Y。

所以感知器的數學模型爲：

其中，基本的非線性函數爲符號函數，取值爲+1或-1：

感知器最大的作用就是對輸入樣本進行分類。所以感知器可以作爲分類器，如定義：

上式中感知器的分類邊界爲：

如此，我們可以總結一下感知器的算法流程：

(1)對權係數置初值 w = (W1,W2,...,Wn,Wn+1)；

(2)輸入樣本 X = (X1,X2,...,Xn,Xn+1) 以及它的期望 d；

(3)計算實際的輸出值：

(4)根據實際的輸出求出誤差：

(5)用誤差 e 去修改權值係數：

(6)轉到第(2)步，一直執行到一切樣本都已穩定爲止。

其中，在初始化時，有：

3.)感知器分類的例子

如圖，我們有一張X1與X2的真值表：

我們定義X1與X2的值爲1的爲A類，X1與X2的值爲0的爲B類。於是我們認爲，輸出向量X是一個2維向量{X1,X2}，而權值向量爲{W1,W2}。我們根據感知器的傳遞函數，列出以下關係式：

解上述方程得到：

取值：

此時感知器的邊界爲：

分類結果如下圖：

4.)神經網絡學習的梯度算法

對於感知器的學習算法，因其傳遞函數（階躍函數）的簡單而存在侷限性：

當函數不是線性可分時，則求不出結果；
不能推廣到一般的前饋網絡中。

爲了克服存在的問題，所以人們提出了另一種算法：梯度算法(LMS法)

這種算法是在前面的算法上進行了三種改進：

(1)改進一：將激勵函數從階躍函數改爲了可微分的Sigmoid函數：

非對稱型：或對稱型：

(2)改進二：改變了誤差公式的計算方法：

要使得誤差 e 對權值係數 W 最小：

(3)改進三：按負梯度方向修改權值係數 W 。

算法流程方面與感知器的算法流程一致。

梯度法的優點在於：

神經元傳遞函數採用連續S型函數，而不是階躍函數；
對權值係數的修改採用誤差的梯度去控制，而不是採用誤差去控制；
具有更好的動態特性，加快收斂進程。

------------------------------------------------------------------------------------------------------------------

總結

神經網絡可以用於分類、聚類、預測等用途；
神經網絡需要有一定量的歷史數據，通過歷史數據的訓練，網絡可以學習到數據中隱含的知識。
神經網絡已被用來解決各種各樣的很難用普通的以規則爲基礎的編程解決的任務，包括計算機視覺和語音識別。

如有任何疑問，歡迎一起討論。

如要轉載本文，請註明出處：http://blog.csdn.net/ws_20100/

及時澍雨Timely

發佈了43 篇原創文章 · 獲贊 42 · 訪問量 39萬+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

一文深度剖析 ColBERT

近年來，向量搜索領域經歷了爆炸性增長，尤其是在大型語言模型（LLMs）問世後。學術界開始重點關注如何通過擴展訓練數據、採用先進的訓練方法和新的架構等方法來增強 embedding 向量模型。在之前的文章中，我們已經深入探討了各種類型的 e

2024-05-24 21:25:22

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

O2OA(翱途)開發平臺爲待辦創建配置郵件通知

O2OA(翱途)開發平臺[下稱O2OA開發平臺或者O2OA]的消息機制允許開發者通過配置實現郵件通知。本篇主要闡述如何實現待辦消息的郵件通知。一、先決條件： 1、O2Server服務器正常運行，系統安裝部署請參考

2024-05-09 23:10:17

理論+實踐，帶你瞭解分佈式訓練

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

打開神經網絡的黑箱子

卷積神經網絡每個卷積核提取不同的特徵。每個卷積覈對輸入進行卷積，生成一個feature map，這個feature map即體現了該卷積核從輸入中提取的特徵，不同的feature map顯示了圖像中不同的特徵。淺層卷積核提取：邊緣、顏

2024-05-06 00:41:39

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

京東廣告研發 —— 京東推薦廣告排序機制演化

1、序言：廣告排序機制的前世今生 1.1、簡介：廣告排序機制在線廣告是國內外各大互聯網公司的重要收入來源之一，而在線廣告與傳統廣告最大的區別就在於其超大規模的實時競價環境：數以萬計的廣告主在一天內可以參與億級別的流量競拍。在這複雜的實

2024-04-24 23:17:14

03-爲啥大模型LLM還沒能完全替代你？

1 不具備記憶能力的它是零狀態的，我們平常在使用一些大模型產品，尤其在使用他們的API的時候，我們會發現那你和它對話，尤其是多輪對話的時候，經過一些輪次後，這些記憶就消失了，因爲它也記不住那麼多。 2 上下文窗口的限制大模型對其inpu

2024-04-23 01:07:00

輕鬆復現一張AI圖片

輕鬆復現一張AI圖片現在有一個非常漂亮的AI圖片，你是不是想知道他是怎麼生成的？今天我會交給大家三種方法，學會了，什麼圖都可以手到擒來了。需要的軟件在本教程中，我們將使用AUTOMATIC1111 stable diffusio

2024-04-22 21:30:45

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

文檔圖像大模型

隨着信息技術的快速發展，文檔處理已經成爲日常生活和工作中不可或缺的一部分。傳統的文檔處理方法往往需要人工參與，效率低下且易出錯。近年來，隨着深度學習技術的突破，文檔圖像大模型在智能文檔處理領域嶄露頭角，爲提升文檔處理性能提供了新的解決方案。

2024-04-18 11:29:52

24小時熱門文章

最新文章

最新評論文章