神經網絡常用激活函數

原創

王小白的博客

2019-09-15 17:51

激活函數作用：

做非線性映射
如果使用線性激活函數或者沒有使用一個激活函數，那麼無論神經網絡有多少層一直在做的只是計算線性函數。事實證明如果在隱藏層用線性激活函數，在輸出層用sigmoid函數，那麼這個模型的複雜度和沒有任何隱藏層的標準Logistic迴歸是一樣的
吳恩達說：不能在隱藏層用線性激活函數，可以用ReLU或者tanh或者leaky ReLU或者其他的非線性激活函數，唯一可以用線性激活函數的通常就是輸出層；會在隱層用線性函數的，除了一些特殊情況，比如與壓縮有關的，或者部分迴歸問題

激活函數的性質：

可微（梯度下降）
單調（保證單層網絡爲凸函數）
輸出值的範圍：
- 有限：基於GD的方法更穩定，因爲特徵的表示受有限權值的影響更顯著
- 無限：訓練高效，需要小的學習率

神經網絡常用激活函數：

sigmoid

公式： $\delta(z) =$

導數：

反向傳播：

總結：

輸出在 (0, 1) ，可以表示概率
導數值域 (0 , 0.25) ，反向傳播梯度消失
偏移現象：輸出不是0均值
除了輸出層是一個二分類問題基本不會用它

tanh

輸出在 (-1, 1) ，均值接近0
導數值域 (0, 1)，收斂比sigmoid快，但是反向傳播也可能產生梯度消失
比較優秀，幾乎適合所有場合
結果表明，如果在隱藏層上使用函數tanh，效果總是優於sigmoid函數

ReLU系列：（摘自：吳恩達）

最常用的默認函數，如果不確定用哪個激活函數，就使用ReLu或者Leaky ReLu。
在區間變動很大的情況下，激活函數的導數或者激活函數的斜率都會遠大於0，在程序實現就是一個if-else語句，而sigmoid函數需要進行浮點四則運算，在實踐中，使用ReLu激活函數神經網絡通常會比使用sigmoid或者tanh激活函數學習的更快。
sigmoid和tanh函數的導數在正負飽和區的梯度都會接近於0，這會造成梯度彌散，而Relu和Leaky ReLu函數大於0部分都爲常數，不會產生梯度彌散現象。(同時應該注意到的是，Relu進入負半區的時候，梯度爲0，神經元此時不會訓練，產生所謂的稀疏性，而Leaky ReLu不會有這問題)

ReLU

輸出大於等於0，導數爲 0 或 1
分段線性函數
有良好的數學性質，運算比sigmoid、tanh快，而且可以避免梯度消失或梯度爆炸
ReLU壞死：網絡中的神經元無法在正向傳播中起作用而永久死亡的現象
ReLU壞死和偏移會影響網絡的收斂性

leaky-ReLU

解決了ReLU的硬飽和問題（在x趨近於負無窮時，導數=0，導數無限接近於0是軟飽和）

P-ReLU：

帶參數的ReLU，認爲a也可以作爲參數學習

BP更新ai時，採用的是帶動量的更新方式：

上式的兩個係數分別是動量和學習率，ai被初始化爲0.25。

需要特別注意的是：更新ai時不施加權重衰減(L2正則化)，因爲這會把ai很大程度上push到0。事實上，即使不加正則化，試驗中ai也很少有超過1的。

PReLU只增加了極少量的參數，也就意味着網絡的計算量以及過擬合的危險性都只增加了一點點。特別的，當不同channels使用相同的ai時，參數就更少了。

ELU

（a=0.7時）

融合了ReLU和sigmoid，左側具有軟飽和性，右側線性部分可以緩解梯度消失，左側軟飽和對輸入變化或噪聲更魯棒
輸出均值接近0，收斂快

Maxout

公式：

能夠近似任意連續函數
當爲0時，退化爲ReLU
緩解梯度消失，避免ReLU壞死，增加了參數量和計算量

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

N網下載mod方法: 20240614親測好使

https://www.bilibili.com/video/BV1k8411575T/?vd_source=d68ed178f151e80fea1e02efd205802c

張博的博客

2024-06-15 14:23:44

Libgdx遊戲開發(3)——通過柏林噪音算法地圖隨機地形

原文: Libgdx遊戲開發(3)——通過柏林噪音算法地圖隨機地形-Stars-One的雜貨小窩在B站刷到了隨機地圖生成的視頻,隨手學習下並做下記錄注: 本篇使用javafx應用作演示,算是瞭解這個算法的使用,後續會再出篇libgdx

2024-06-15 14:23:14

電子行業MES系統流程圖梳理

2024-06-15 14:22:44

langchain Chatchat 學習實踐（四）——實現對Text2Sql的支持

這裏記錄一下langchain chatchat項目中的text2sql的實現思路。 1、SQLDatabaseChain鏈 SQLDatabaseChain是langchain框架自帶的數據庫自然語言交互工具，其內部通過sqlalchem

2024-06-15 14:19:14

python cuda12 安裝

pip install torch2.3.0 torchvision0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu121

2024-06-15 14:15:03

解決#error -- unsupported GNU version! gcc versions later than 11 are not supported!

ubuntu系統gcc版本太高導致cuda編譯報錯，可以手動切換gcc版本： #切換gcc版本 sudo update-alternatives --config gcc #切換g++版本 sudo update-alternatives

2024-06-15 14:14:43

Codeforces Global Round 26 D ''a'' String Problem（思維）

這題思維性很強，沒搞出來，純記錄一下。看題解看了很久纔看懂。代碼補充了幾個例子幫助理解。思路可以參考Codeforces Global Round 26 (A - E) - Lu_xZ - 博客園 (cnblogs.com) 1 #de

2024-06-15 14:14:03

前端使用 Konva 實現可視化設計器（15）- 自定義連接點、連接優化

前面，本示例實現了折線連接線，簡述了實現的思路和原理，也已知了一些缺陷。本章將處理一些缺陷的同時，實現支持連接點的自定義，一個節點可以定義多個連接點，最終可以滿足類似圖元接線的效果。請大家動動小手，給我一個免費的 Star 吧~ 大家如

2024-06-15 14:11:43

爲centos7系統添加新用戶並設置祕鑰登陸

要在CentOS 7系統上創建一個新用戶evan，並禁止其使用密碼登錄而僅允許密鑰登錄，你可以按照以下步驟操作：創建新用戶使用root賬號登錄到CentOS 7系統，然後運行以下命令來創建新用戶evan：

憤怒的碼農

2024-06-15 14:09:23

Odoo jsonb查詢

1. ->>查詢具體字段 SELECT * FROM product_template WHERE description_purchase->>'en_US' = 'purchase_food' 2. ::name 完整字符串匹配

2024-06-15 14:07:53

在 Solidity 中將地址類型轉換爲 IERC20 接口類型

在智能合約開發中，尤其是涉及到 ERC-20 代幣交互時，開發者常常需要將一個地址類型轉換爲 IERC20 接口類型。這樣做的目的是爲了調用接口中的函數，如 transfer 和 approve。本文將詳細講解這一過程，並簡要介紹相關的背景

2024-06-15 14:07:53

solidity calldata學習

在 Solidity 中，calldata 是一種數據位置標識符，用於指定函數參數的存儲位置。calldata 特別適用於函數的外部調用參數，並且是隻讀的。以下是對 Solidity 中數據位置的一些說明： storage: 用於狀態變量

2024-06-15 14:07:53

理解 Solidity 中的修飾器（Modifiers)

在智能合約開發中，代碼的可讀性和安全性至關重要。Solidity 作爲以太坊上最常用的編程語言，爲開發者提供了一種強大的工具——修飾器（modifiers）。修飾器可以在函數調用前後執行特定的代碼，簡化邏輯並增強合約的安全性。本文將深入探討

2024-06-15 14:07:53

探索 Solidity 中的各種修飾符

探索 Solidity 中的各種修飾符在智能合約開發中，確保代碼的安全性、可讀性和高效性至關重要。Solidity 作爲以太坊上最廣泛使用的編程語言，提供了一系列的修飾符來幫助開發者實現這些目標。本文將深入探討 Solidity 中的各種

2024-06-15 14:07:53

全球國家或地區ISO代碼，IOS2編碼，IOS3編碼

最近項目需要使用到全球國家或地區ISO編碼。發現網上並沒有完整的數據，然後就自己抓了一些數據回來。分享給大家，拿來可以直接使用。 excel文件：https://github.com/mtyh/CountryCodeCrawler/tre

2024-06-15 14:05:12

24小時熱門文章

最新文章

最新評論文章