爲什麼神經網絡需要非線性激活函數

原創

2020-06-26 13:09

生物神經網絡啓發了人工神經網絡的發展，在瞭解爲什麼神經網絡需要非線性激活函數之前，理解生物神經網絡的工作原理對我們是有幫助的。

一個典型的生物神經元的物理結構包括細胞體、樹突、軸突。樹突具有接受刺激並將衝動傳入細胞體的功能，細胞體具有聯絡和整合輸入信息並傳出信息的作用，軸突的主要功能是將神經衝動由細胞體傳至其他神經元。神經元通過樹突接收來自其他神經元的信號，來自樹突的信號在細胞體中積累，如果產生的信號強度超過一定的閾值，神經元就把信息傳遞給軸突。否則，信號會被神經元殺死，不再傳播。

在人工神經網絡中，激活函數決定是否需要傳遞信號。上圖中第二層的神經單元可以看做是一個細胞體，它接收來自其它神經元的信號，然後整合信息。在人工神經網絡中計算如下，b代表偏置項(在上圖中代表一個實數)，g代表激活函數。

如果神經網絡中沒有激活函數，或者說是線性激活函數，那麼會發生什麼呢？

假設有一個上圖所示的兩層的淺層神經網絡(輸入層不算)，如果每個神經元都採用線性激活函數g(z)=z。

上面的神經網絡正向傳播的過程就可以表示如下：

中括號表示第幾層，W是權重矩陣，的維度是(3,3)，和的維度是(3,1)，的維度是(1,3)，和的維度是(1,1)，x是(3,1)的向量。

可以看到第二層的輸出值仍然是輸入特徵的線性組合，不難想象，如果在神經網絡中使用線性激活函數或者沒有激活函數，那麼無論你的神經網絡有多少層，一直在做的只是線性計算，最後的結果其實也只是一個線性方程，這就使得我們無法計算更復雜的函數。神經網絡是用來實現複雜函數的，使用非線性激活函數使它能夠逼近任意複雜函數。如果沒有激活函數引入的非線性，多層神經網絡相當於單層神經網絡。

下面舉個例子

這裏有兩個類別，x1和x2的取值只能是0或1，當x1=x2時，爲X類別，否則就爲⚪類別。直觀上來看，上圖中的數據點不是線性可分的，或者說我們無法使用一條直線來正確劃分開兩個類別，所以我們需要使用非線性的激活函數，使我們得到非線性的決策邊界來分開它們。

再舉一個例子，如果我們希望分開上圖中的藍色點和紅色點，很明顯無法使用一條直線來將它們分開，這就需要使用非線性激活函數的神經網絡才能實現，下圖爲使用非線性激活函數神經網絡的決策邊界。

使用激活函數還有一個作用，它能將神經元的輸出映射在在一定範圍之內。如果單純是像這樣的線性組合 $b+\sum_{i=1}^{n}w_ix_i$

這個值可能會變得非常大，而這個數字如果不經過任何修改又傳給下一層的神經元，那就可能變成更大的數字，這會使得過程變得難以計算。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

22萬獎金池已到位，2024天池雲原生編程挑戰賽正式啓動

阿里雲作爲雲原生技術的推動者及引領者，一直走在行業發展的前沿，始終關注業內新方向。爲推動新技術發展，發現創新人才。自 2015 年開始，阿里雲啓動中間件性能挑戰賽，到2020年升級爲雲原生編程挑戰賽，今年正值大賽十週年，我們繼續向全球開發者

2024-06-14 21:13:40

1300萬開發者都在關注的大會！WAVE SUMMIT 2024即將來襲

2024年大模型技術迅猛革新，百度作爲前沿科技風向標的代表性企業動向備受關注。中國AI領域頂級開發者盛會WAVE SUMMIT 深度學習開發者大會2024日漸臨近，將於6月28日在北京望京凱悅酒店正式召開。 WAVE SUMMIT 202

2024-06-14 00:26:15

《網絡反不正當競爭規定》9月1日實施，這兩類欺詐被重點關注

近日，國家市場監督管理總局公佈《網絡反不正當競爭暫行規定》，自2024年9月1日起施行。《網絡反不正當競爭暫行規定》是爲預防和制止網絡不正當競爭行爲，維護公平競爭的市場秩序，鼓勵創新，保護經營者和消費者的合法權益，促進數字經濟規範持續健康

2024-06-13 00:13:29

618網購節，電商能擋住惡意網絡爬蟲的攻擊嗎？

2023年，杭州中院審結了兩起涉及“搬店軟件”的不正當競爭案件。本案的原告是國內某大型知名電子商務平臺的運營主體，而被告則是開發了一款名爲“某搬家快速商品上貨批量發佈”的複製軟件，被控非法獲取平臺商品信息並在其他服務市場銷售。根據原告的訴

2024-06-07 00:14:57

大模型在推薦系統中的精準推薦策略與實踐

引言推薦系統在現代互聯網應用中佔據了極其重要的位置。無論是電商平臺、社交媒體、音樂和視頻流媒體服務，還是新聞和內容推薦系統，推薦系統都在提高用戶體驗和平臺收益方面發揮着關鍵作用。近年來，隨着人工智能和機器學習技術的迅猛發展，大模型（如G

2024-06-06 23:55:10

原來Stable Diffusion是這樣工作的

stable diffusion是一種潛在擴散模型，可以從文本生成人工智能圖像。爲什麼叫做潛在擴散模型呢？這是因爲與在高維圖像空間中操作不同，它首先將圖像壓縮到潛在空間中，然後再進行操作。在這篇文章中，我們將深入瞭解它到底是如何工作的,還

2024-06-06 21:38:48

什麼是LLM大模型訓練，詳解Transformer結構模型

本文分享自華爲雲社區《LLM 大模型學習必知必會系列(四)：LLM訓練理論篇以及Transformer結構模型詳解》，作者：汀丶。 1.模型/訓練/推理知識介紹深度學習領域所謂的“模型”，是一個複雜的數學公式構成的計算步驟。爲了便於理解

2024-06-04 11:09:34

Prompt Tuning：大模型微調實戰

隨着深度學習技術的不斷髮展，大模型在各種任務中取得了顯著的成果。然而，大模型的訓練需要大量的數據和算力，導致在實際應用中受到限制。爲了解決這個問題，研究者們提出了微調的方法，即使用預訓練模型在少量數據上進行訓練，使其適應特定的任務。在Pr

2024-06-03 12:14:42

走進京東“卓越研效架構師”首期研習營圓滿收官

五月的北京，春深半夏，花開滿城。由全國雲計算技術行業產教融合共同體牽頭，攜手工業和信息化部電子第五研究所、E³CI軟件研發效能度量工作委員會以及京東雲共同主辦的“走進京東——卓越研效架構師”研習營，於5月17-18日和24-26日在北京京東

2024-05-31 23:55:49

兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯

本文分享自華爲雲社區《兒童節變身小小音樂家*用ModelArts製作一張AIGC音樂專輯》*作者* 華爲雲社區精選。兒童節*如何給小朋友準備一份特別的禮物* 這份AIGC音樂專輯製作攻略一定要收下一段文字靈感就能編織出一曲悠揚悅耳的旋

2024-05-31 11:04:39

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基於Fluid與JindoCache的大模型訓練加速實踐

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

24小時熱門文章

最新文章

最新評論文章