Loss函數，激活函數，規範化

原創

2018-08-30 14:51

最近在看深度學習時，一直很好奇，loss函數，激活函數，規範化到底是怎麼弄出來的。

一直以爲這個是固定不變的，然後收集了很多自戀，查看了很多博客。最後纔有點眉目。

以下是個人淺見，希望各位大神，各位大大門指正。

一般而言：機器學習可以分爲兩大類：迴歸、分類：

迴歸：根據離散樣本（xi，yi）歸納出一條平滑的曲線（或直線），並用這條曲線來預測事物的發展情況

分類：根據離散樣本（xi，yi）的某些性質，將該離散樣本分爲幾類，每類數據有不同的性質，並用分類的參數對新樣本進行分類預測：新樣本屬於哪個類別

我們要對未知情況進行預測，就必須建立一個切合實際的模型，用這樣的模型對新的數據進行預測。而要建立一個切合實際的模型，其實就是對樣本（xi，yi）進行處理的相關參數集的調試。即我們需要找到能夠使樣本（xi，yi）進行正確分類的最佳參數集，用另一句話說，就是使分類結果（實際輸出）和理想結果（我們的期望）的誤差越小越好（鑑於很多模型可能沒有最小值解，所以一般希望越小越好），而用來表示這個誤差的函數就是我們所謂的誤差函數/損失函數/成本函數

LOSS FUNCTION

一般而言，大多數神經網絡採用了3類損失函數：二次代價函數（均方差函數），交叉熵函數，softmax所用的函數

1 均方差損失函數：在UFLDL中採用的就是均方差損失函數，其模型爲：

其中 f( ) 是正個模型的的輸出函數，具體化即爲輸出層的函數，y 爲我們希望的輸出，或者說數據帶有的標籤；

這樣，二者之間的差值自然是越小越滿足我們的要求，所以均方差損失函數可以作爲代價函數。

2 交叉熵函數：熵起源於香農信息量的期望，可以參考下http://www.cnblogs.com/crackpotisback/p/6781872.html其模型爲：

同樣的，f( )表示輸出，y表示期望的輸出或者標籤。

我們可以計算，當 y 很接近 f( ) 時，即表示模型對數據的預測很接近我們的期望時，此時 y = f( ) =1，或者y = f( ) = 0,代入上式均可以得到J = 0

當 y 不等於或者遠離 f( ) 時，即表示模型對數據的預測很不符合我們的期望時，此時 y =0， f( ) =1；或者y =1， f( ) = 0,代入上式均可以得到 J 趨近於無窮

所以我們可以用交叉熵來判斷模型參數是否符合我們的期望，即作爲損失函數。

3 softmax分類器所用的函數：可以參考：http://blog.csdn.net/ture_dream/article/details/54948518，softmax是一個多分類器，是有一種特殊的交叉熵方法進行判斷的。

softmax是個多分類器，其輸出層的函數爲：

其中 j = 1,2,3，...K，表示K個類別，也就是說softmax輸出層輸出的是測試樣本是第 j 類的概率；

此時採用的損失函數爲：（下面用 i 來代替 j 了）

這樣，當第 i 個樣本存在的概率越大，L 值越接近於0；相反。該概率越小，其值越大，表示和我們希望不符合

以上是我收集的損失函數。

THE ACTIVATION FUNCTION

激活函數是每個節點（不含輸入層）必須要有的功能，在這兒簡單地對激活函數做一個介紹：

1 sigmoid函數以其導數：

2 tanh函數：

3 softplus函數：

4 softsign：http://write.blog.csdn.net/postedit

5 ReLu：

、

此外，ReLu還有其他的類型：LReLu，PReLu，RReLu三種變形。

6 softmax的輸出層，如上述。

規範化：

規範化，也稱爲正則化：

1 L2正則化：在損失函數中加入1/2 * λω^2，L2正則化對大的權重有很高的懲罰度，以求讓權重分配的更均勻一些

2 L1正則化：在損失函數中加入 λ|ω| ，L1正則化會在模型訓練過程中讓權重向量逐漸的稀疏化，即就是到最後只留下了對結果影響最大的一部分權重

3 最大範數約束：限制了一個上行的權重邊界，然後約束每個神經元上的權重都要滿足這個約束，不添加懲罰項，要求每一個神經元的權重向量必須滿足：小於一給定的常數

4 dropout正則化：設置以參數p，就是在訓練過程中，對每個神經元，都以概率p保持它是激活狀態，1-p的概率直接關閉它

可以參考：http://blog.csdn.net/han_xiaoyang/article/details/50451460

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Postman 拷貝 curl 不識別 --data-raw

postman：請求路徑：拷貝出來的curl： curl --location --request POST 'http://xxxxxxxxxxxxx/xxx/xxx' \ --header 'Content-Type:

2024-06-06 14:26:55

985 碩士程序員，空窗 4 個月沒有 Offer！

大家好，我是R哥。最近，R哥分享了幾個特別有意思的面試輔導成功案例： 35K*14 薪入職了，這公司只要不裁員，我能一直呆下去。。幹了 2 年多 Java 外包，終於脫離了！輔導一週，連拿 3 個 Offer！說到

2024-06-06 14:24:35

（數據科學學習手札161）高性能數據分析利器DuckDB在Python中的使用

本文完整代碼及附件已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介　　大家好我是費老師，就在幾天前，經過六年多的持續開發迭代，著名的開源高性能分

2024-06-06 14:24:35

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

十年河東，十年河西，莫欺少年窮學無止境，精益求精先決條件主服務器也稱之爲分發服務器，從服務器稱之爲訂閱服務器下文皆按照主/從服務器稱呼主服務器和訂閱服務器需在同一個內網網絡內主服務器和訂閱服務器安裝相同版本sqlserver，本

2024-06-06 14:24:25

終於搞懂了！原來vue3中template使用ref無需.value是因爲這個

前言衆所周知，vue3的template中使用ref變量無需使用.value。還可以在事件處理器中進行賦值操作時，無需使用.value就可以直接修改ref變量的值，比如：<button @click="msg = 'Hello Vue3'

你假裝沒察覺

2024-06-06 14:24:14

調試chatglm4代碼

import torch from transformers import AutoModelForCausalLM, AutoTokenizer from modeling_chatglm import ChatGLMForConditi

張博的博客

2024-06-06 14:22:54

記一次 .NET某工控視覺自動化系統卡死分析

一：背景 1. 講故事今天分享的dump是訓練營裏一位學員的，從一個啥也不會到現在分析的有模有樣，真的是看他成長起來的，調試技術學會了就是真真實實自己的，話不多說，上windbg說話。二：WinDbg 分析 1. 爲什麼會卡死這位學員

2024-06-06 14:18:44

k8s組件和網絡插件掛掉，演示已有的pod是否正常運行

環境 03 master ,05 06是node [root@mcwk8s03 mcwtest]# kubectl get nodes -o wide NAME STATUS ROLES AGE VERSI

2024-06-06 14:16:54

創建一條隧道網絡，進行傳輸的時候，是否是轉換爲物理網卡IP進行通信？ k8s組件和網絡插件掛掉，演示已有的pod是否正常運行

由此產生的疑問： k8s組件和網絡插件掛掉，演示已有的pod是否正常運行【1】創建一條隧道網絡，進行傳輸的時候，是否是轉換爲物理網卡IP進行通信？在創建隧道網絡進行傳輸時，通常不會直接轉換爲物理網卡IP進行通信。

2024-06-06 14:16:54

aecmap直接用地理座標系計算面積

aecgis直接用地理座標系計算面積 1.添加字段，選擇雙精度 2.打開字段計算器，選擇python 3.輸入： !Shape.geodesicArea!/1000000 　4.計算 @ouyang 翻譯搜索

2024-06-06 14:16:34

java由於越界導致的報錯

問題兩種計算時間戳的結果不一樣。 int days = 30; Instant now = Instant.now(); long timestamp_cur = now.toEpochMilli(); long nowPre = ti

2024-06-06 14:11:03

webDav網盤

今天又學習到了，優點是直接用IIS或nginx等發佈，使用80或443端口。 Windows Server 安裝 WebDAV (步驟超詳細) - 鄭道傑 - 博客園 (cnblogs.com) 全網最詳細 WebDAV 搭建文檔（Wi

2024-06-06 14:09:13

NFS，smb和數據庫文件

nfs的搭建網上有很多，可自行查看 Windows Server2012 R2搭建NFS服務器 - 知乎 (zhihu.com) 其中Windows10家庭版不支持NFS客戶端，目前Windows上的協議是V3版本，防火牆上有NFS的選項，

2024-06-06 14:09:13

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

通過大模型來實現多個智能體進行遊戲對局這個想對已經比較成熟了無論是去年驚豔的斯坦福小鎮還是比如metaGPT或者類似的框架都是使用智能體技術讓大模型來操控，從而讓大模型跳出自身“預測下一個token”的文字功能去探索更多的應用落地可能性。不

2024-06-06 14:08:23

python內置函數——sorted

對List、Dict進行排序，Python提供了兩個方法對給定的List L進行排序，方法1.用List的成員函數sort進行排序，在本地進行排序，不返回副本方法2.用built-in函數sorted進行排序（從2.4開始），返回副本

python學習者0

2024-06-06 14:07:53

24小時熱門文章

最新文章

最新評論文章