神經網絡的介紹

原創

あずにゃん

2020-04-10 18:29

日萌社

人工智能AI：Keras PyTorch MXNet TensorFlow PaddlePaddle 深度學習實戰（不定時更新）

2 神經網絡的介紹

目標

知道神經網絡的概念
知道什麼是神經元
知道什麼是單層神經網絡
知道什麼是感知機
知道什麼是多層神經網絡
知道激活函數是什麼，有什麼作用
理解神經網絡的思想

1. 人工神經網絡的概念

人工神經網絡（英語：Artificial Neural Network，ANN），簡稱神經網絡（Neural Network，NN）或類神經網絡，是一種模仿生物神經網絡（動物的中樞神經系統，特別是大腦）的結構和功能的計算模型。

和其他機器學習方法一樣，神經網絡已經被用於解決各種各樣的問題，例如機器視覺和語音識別。這些問題都是很難被傳統基於規則的編程所解決的。

2. 神經元的概念

在生物神經網絡中，每個神經元與其他神經元相連，當它“興奮”時，就會向相連的神經元發送化學物質，從而改變這些神經元內的電位；如果某神經元的電位超過了一個“閾值”，那麼它就會被激活，即“興奮”起來，向其他神經元發送化學物質。

1943 年，McCulloch 和 Pitts 將上述情形抽象爲上圖所示的簡單模型，這就是一直沿用至今的 M-P 神經元模型。把許多這樣的神經元按一定的層次結構連接起來，就得到了神經網絡。

一個簡單的神經元如下圖所示，

可見，一個神經元的功能是求得輸入向量與權向量的內積後，經一個非線性傳遞函數得到一個標量結果。

3. 感知機

感知機是最早應用神經元計算模型的一個二分類算法。

感知機的激活函數是符號函數：sign(z) = +1 (if z >=0) else -1

感知機的作用：

把一個n維向量空間用一個超平面分割成兩部分，給定一個輸入向量，超平面可以判斷出這個向量位於超平面的哪一邊，得到輸入時正類或者是反類，對應到2維空間就是一條直線把一個平面分爲兩個部分。

4. 單層神經網絡

是最基本的神經元網絡形式，由有限個神經元構成，所有神經元的輸入向量都是同一個向量。由於每一個神經元都會產生一個標量結果，所以單層神經元的輸出是一個向量，向量的維數等於神經元的數目。

示意圖如下：

5. 多層神經網絡

多層神經網絡就是由單層神經網絡進行疊加之後得到的，所以就形成了層的概念，常見的多層神經網絡有如下結構：

輸入層（Input layer），衆多神經元（Neuron）接受大量輸入消息。輸入的消息稱爲輸入向量。
輸出層（Output layer），消息在神經元鏈接中傳輸、分析、權衡，形成輸出結果。輸出的消息稱爲輸出向量。
隱藏層（Hidden layer），簡稱“隱層”，是輸入層和輸出層之間衆多神經元和鏈接組成的各個層面。隱層可以有一層或多層。隱層的節點（神經元）數目不定，但數目越多神經網絡的非線性越顯著，從而神經網絡的強健性（robustness）更顯著。

示意圖如下：

概念：全連接層

全連接層：當前一層和前一層每個神經元相互鏈接，我們稱當前這一層爲全連接層。

思考：假設第N-1層有m個神經元，第N層有n個神經元，當第N層是全連接層的時候，則N-1和N層之間有1，這些參數可以如何表示？

從上圖可以看出，所謂的全連接層就是在前一層的輸出的基礎上進行一次的變化(不考慮激活函數的情況下就是一次線性變化，所謂線性變化就是平移(+b)和縮放的組合(*w))

6. 激活函數

在前面的神經元的介紹過程中我們提到了激活函數，那麼他到底是幹什麼的呢？

假設我們有這樣一組數據，三角形和四邊形，需要把他們分爲兩類

通過不帶激活函數的感知機模型我們可以劃出一條線, 把平面分割開

假設我們確定了參數w和b之後，那麼帶入需要預測的數據，如果y>0,我們認爲這個點在直線的右邊，也就是正類（三角形），否則是在左邊（四邊形）

但是可以看出，三角形和四邊形是沒有辦法通過直線分開的，那麼這個時候該怎麼辦？

可以考慮使用多層神經網絡來進行嘗試，比如在前面的感知機模型中再增加一層

對上圖中的等式進行合併，我們可以得到：

上式括號中的都爲w參數，和公式

完全相同，依然只能夠繪製出直線

所以可以發現，即使是多層神經網絡，相比於前面的感知機，沒有任何的改進。

但是如果此時，我們在前面感知機的基礎上加上非線性的激活函數之後，輸出的結果就不在是一條直線

如上圖，右邊是sigmoid函數，對感知機的結果，通過sigmoid函數進行處理

如果給定合適的參數w和b，就可以得到合適的曲線，能夠完成對最開始問題的非線性分割

所以激活函數很重要的一個作用就是增加模型的非線性分割能力

常見的激活函數有：

看圖可知：

sigmoid 只會輸出正數，以及靠近0的輸出變化率最大
tanh和sigmoid不同的是，tanh輸出可以是負數
Relu是輸入只能大於0,如果你輸入含有負數，Relu就不適合，如果你的輸入是圖片格式，Relu就挺常用的，因爲圖片的像素值作爲輸入時取值爲[0,255]。

激活函數的作用除了前面說的增加模型的非線性分割能力外，還有

提高模型魯棒性
緩解梯度消失問題
加速模型收斂等

這些好處，大家後續會慢慢體會到，這裏先知道就行

6. 神經網絡示例

一個男孩想要找一個女朋友，於是實現了一個女友判定機，隨着年齡的增長，他的判定機也一直在變化

14歲的時候：

上述的超級女友判定機其實就是神經網絡，它能夠接受基礎的輸入，通過隱藏層的線性的和非線性的變化最終的到輸出

通過上面例子，希望大家能夠理解深度學習的思想：

輸出的最原始、最基本的數據，通過模型來進行特徵工程，進行更加高級特徵的學習，然後通過傳入的數據來確定合適的參數，讓模型去更好的擬合數據。

這個過程可以理解爲盲人摸象，多個人一起摸，把摸到的結果乘上合適的權重，進行合適的變化，讓他和目標值趨近一致。整個過程只需要輸入基礎的數據，程序自動尋找合適的參數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

AI安全啓示錄：銀行最常遇到的五類AI攻擊手段

根據麥肯錫研究所的數據，基於AI的身份欺詐已成爲美國增長最快的金融犯罪類型，並且在全球範圍內呈上升趨勢。英國GDG的研究表明，英國有超過860萬人使用虛假或他人的身份來獲取商品、服務或信貸。美國財政部近日發佈在一份題爲《金融服務業中特定於

2024-04-18 23:33:14

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

隨着人工智能技術的日益成熟，大模型成爲了衆多領域的研究熱點。大模型通過龐大的數據量和複雜的網絡結構，實現了對數據的深度挖掘和高效處理。然而，大模型的龐大體積和高計算成本也限制了其在一些實際場景中的應用。爲了解決這一問題，文心大模型ERNIE

2024-04-18 11:29:53

Open WebUI大模型對話平臺：適配Ollama的實踐與探索

隨着人工智能技術的飛速發展，大模型對話平臺成爲了衆多領域中的熱門話題。Open WebUI大模型對話平臺作爲一款功能強大的工具，爲我們提供了一種無縫集成文檔交互、輕鬆訪問Web內容、訓練模型以及實現多模態交互的方式。在本文中，我們將深入探討

2024-04-18 11:29:51

RK3568驅動指南｜第二篇字符設備基礎-第16章一個驅動兼容不同設備實驗

瑞芯微RK3568芯片是一款定位中高端的通用型SOC，採用22nm製程工藝，搭載一顆四核Cortex-A55處理器和Mali G52 2EE 圖形處理器。RK3568 支持4K 解碼和 1080P 編碼，支持SATA/PCIE/USB3.0

2024-04-17 22:54:26

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

Hugging Face推出全新代碼大模型：支持80+編程語言，集成VSCode

隨着人工智能技術的不斷髮展，代碼大模型成爲了近年來備受矚目的技術熱點。作爲自然語言處理領域的領軍企業，Hugging Face近日推出了一款全新的代碼大模型，該模型支持80+種編程語言，並與VSCode進行了集成，爲用戶提供了前所未有的代碼

2024-04-16 11:29:25

“大模型驅動的軟件研發” 華爲雲助推企業研發智能化升級

本文分享自華爲雲社區《“大模型驅動的軟件研發” 華爲雲助推企業研發智能化升級》，作者：華爲雲PaaS服務小智。隨着人工智能的發展，AI大模型在各個行業開始廣泛應用。利用AI大模型打通工具鏈，提高產業價值已成爲趨勢。在全球科技競爭加劇的情

2024-04-12 22:33:06

倒計時4天！百度Create AI開發者大會“大模型與深度學習技術”論壇亮點搶鮮看！

作爲人工智能的核心基礎技術，深度學習具有很強的通用性，大模型技術在深度學習的基礎上，通過構建更加龐大神經網絡模型和應用transformer等更加領先的算法，使模型的處理能力產生質的飛躍。飛槳（PaddlePaddle）以百度多年的深度學習

2024-04-12 21:33:07

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

金融領域中的大模型Lora微調：實戰應用與性能優化

隨着金融行業的快速發展，大數據和人工智能技術的應用越來越廣泛。在這個背景下，深度學習模型在金融領域的應用逐漸受到重視。然而，傳統的深度學習模型在金融場景中面臨着數據量大、模型複雜度高、計算資源有限等挑戰。爲了解決這個問題，Lora框架應運而

2024-04-11 23:28:47

RK3568驅動指南｜第二篇字符設備基礎-第15章文件私有數據實驗

瑞芯微RK3568芯片是一款定位中高端的通用型SOC，採用22nm製程工藝，搭載一顆四核Cortex-A55處理器和Mali G52 2EE 圖形處理器。RK3568 支持4K 解碼和 1080P 編碼，支持SATA/PCIE/USB3.

2024-04-11 22:53:56

智能製造與AI大模型

隨着科技的飛速發展，人工智能（AI）已經滲透到我們生活的方方面面，尤其在製造業中，AI大模型的應用正在改變着傳統的生產模式。本文將探討AI大模型在智能製造領域的應用，以及它如何成爲提升生產力的關鍵力量。首先，AI大模型爲智能製造提供了強大

2024-04-10 23:29:40

【人工智能教程】4.2 - 推理的邏輯基礎 - 置換與合一

推理的邏輯基礎 - 置換與合一

2024-04-10 23:08:24

24小時熱門文章

.NET開源強大、易於使用的緩存框架 - FusionCache

最新文章

最新評論文章