KL散度 L2正則粗略理解

原創

2020-07-05 23:54

信息熵可以表達數據的信息量大小；

相對熵，又被稱爲KL散度或信息散度，是兩個概率分佈間差異的非對稱性度量

在信息論中，相對熵等價於兩個概率分佈的信息熵的差值，若其中一個概率分佈爲真實分佈，另一個爲理論（擬合）分佈，則此時相對熵等於交叉熵與真實分佈的信息熵之差，表示使用理論分佈擬合真實分佈時產生的信息損耗

因此該公式的字面上含義就是真實事件的信息熵與理論擬合的事件的香農信息量與真實事件的概率的乘積的差的累加。

假設理論擬合出來的事件概率分佈跟真實的一模一樣，那麼這就等於真實事件的信息熵。

假設擬合的不是特別好，那麼這會比真實事件的信息熵大。

也就是在理論擬合出來的事件概率分佈跟真實的一模一樣的時候，相對熵等於0。而擬合出來不太一樣的時候，相對熵大於0。這個性質很關鍵，因爲它正是深度學習梯度下降法需要的特性。假設神經網絡擬合完美了，那麼它就不再梯度下降，而不完美則因爲它大於0而繼續下降。

這也就是說，相對熵的大小並不跟距離有一一對應的關係。

那爲什麼現在還是很多人用相對熵衍生出來的交叉熵作爲損失函數來訓練神經網絡而不直接用距離相關的均方差呢？

因此雖然相對熵的距離特性不是特別好，但總歸好過直接梯度消失玩不下去（用了均方差損失函數之後求導結果包含y(y−1) 這在y接近於0或者1的時候都趨於0，會導致梯度消失，網絡訓練不下去），因此很多用sigmoid作爲激活函數的神經網絡還是選擇了用相對熵衍生出來的交叉熵作爲損失函數。

當然如果你選用的不是sigmoid激活函數，則不需要考慮這些

在機器學習中，無論是分類還是迴歸，都可能存在由於特徵過多而導致的過擬合問題。當然解決的辦法有：（1）減少特徵，留取最重要的特徵。（2）懲罰不重要的特徵的權重。

但是通常情況下，我們不知道應該懲罰哪些特徵的權重取值。通過正則化方法可以防止過擬合，提高泛化能力。

L2正則化方法

對於之前梯度下降講到的損失函數來說，在代價函數後面加上一個正則化項，得到

從某種意義上說，更小的權值就意味着模型的複雜度更低，對數據的擬合更好。

當權值係數更大時，會過擬合。

（2）在PRML中，正則化就是通過對模型的參數設定一個先驗來防止過擬合。

在上圖中，如果不加正則化項，那麼最優參數對應的等高線離中心點的距離可能會更近，加入正則化項後使得訓練出的參數對應的等高線離中心點的距離不會太近，也不會太遠。從而避免了過擬合。

L1正則化和L2正則化，不同的是L1正則化得到的權重w是稀疏的

神經網絡中的正則化是矩陣L2正則化（正則項是權重矩陣各元素的平方之和）：

L2正則化又被稱爲“權重衰減”weight decay，因爲是在原有的權重上乘以一個小於1 的係數。

正是因爲權重衰減導致w矩陣中很多項約等於0，致使深層神經網絡中很多節點的影響變小了，相當於簡化了網絡結構，這就是爲什麼正則化可以減少過擬合（緩解高方差）的原因。

還有一個直觀的解釋：通過正則化設置lambda，使得w減小，導致z也很靠近0，處在激活函數的線性範圍（非飽和）內，每一層都約爲線性，這樣這個神經網絡的線性成分大大增加，減少了過擬合。

https://zhuanlan.zhihu.com/p/35356992

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

隨着自然語言處理（NLP）技術的不斷髮展，大模型微調（finetune）方法成爲了提高模型性能的關鍵手段。本文將對LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning等主流微調方法進行總結，幫助

2024-05-09 12:48:44

GLM國產大模型訓練加速：高效性能與成本優化的實踐

隨着人工智能技術的不斷進步，大模型的訓練成爲了推動深度學習領域發展的重要力量。然而，傳統的訓練方式往往面臨着性能瓶頸和高昂的成本問題，這使得許多研究者和開發者望而卻步。爲了解決這一難題，我們探索了使用OneFlow框架對GLM國產大模型進行

2024-05-07 23:30:09

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

LLaMA 2語言大模型的微調策略：LoRA與全參數選擇

隨着自然語言處理（NLP）技術的飛速發展，大型語言模型（LLMs）在各個領域都展現出了強大的能力。LLaMA 2作爲其中的佼佼者，具有巨大的潛力。然而，如何有效地對LLaMA 2進行微調，以適應特定的任務或數據集，成爲了一個關鍵問題。本文將

2024-04-23 11:29:21

文心大模型“你說我畫”：PaddleHub與PaddleSpeech的協同實踐

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索時間序列大模型：TimeGPT的魅力與實踐

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

Hugging Face推出全新代碼大模型：支持80+編程語言，集成VSCode

隨着人工智能技術的不斷髮展，代碼大模型成爲了近年來備受矚目的技術熱點。作爲自然語言處理領域的領軍企業，Hugging Face近日推出了一款全新的代碼大模型，該模型支持80+種編程語言，並與VSCode進行了集成，爲用戶提供了前所未有的代碼

2024-04-16 11:29:25

24小時熱門文章

HTTP URL 詳解

最新文章

最新評論文章