【CS224n】Neural Networks, Backpropagation

原創

2020-05-11 04:19

寫在前面：
最近在學習CS224n，系統的學習NLP理論。後面會把相關的學習筆記和代碼公開，歡迎大家和我一起討論。
#############################可愛的分割線###################################
CS224n系列：
【CS224n】Neural Networks, Backpropagation
【CS224n】Neural-Dependency-Parsing
【CS224n】Language Models, RNN, GRU and LSTM
【CS224n】Neural Machine Translation with Seq2Seq
【CS224n】ConvNets for NLP

1. Neural Networks: Foundations

1.1 A Neuron（單個神經元）

1.2 A Single Layer of Neurons（多個神經元的單層網絡）

1.3 Feed-forward Computation（前向計算）

1.4 Maximum Margin Objective Function（最大邊界損失函數）

其中，s爲正標籤樣本得分， $s_c$ 爲負標籤樣本得分， $\Delta$ 爲邊界寬度，類似於SVM的分類間隔。

1.5 Training with Backpropagation – Element（反向傳播）

隨機梯度下降（SGD）：

反向傳播準則爲鏈式法則，推導較長，參考：http://web.stanford.edu/class/cs224n/readings/cs224n-2019-notes03-neuralnets.pdf

2 Neural Networks: Tips and Tricks

2.1 Gradient Check（梯度檢查）

我們可以使用以下方法來對反向傳播計算的梯度結果做檢查：

該公式爲對參數 $\theta$ 求導，反向傳播計算的梯度結果應該接近於該結果。
實際應用中不直接求導的原因是真實場景的神經網絡的參數量巨大，每個參數每次迭代都要計算一次，使用該方法非常耗時。（反向傳播中使用矩陣運算可以大大提高效率）

2.2 Regularization（正則化）

正則化是爲了防止模型過擬合。
$L_2$ 正則化:

$L_1$ 正則化：參數 $W$ 的絕對值之和。

2.3 Dropout

Dropout也是一種正則化技術，同樣可以防止模型過擬合。
基本原理爲：訓練階段，每一次訓練過程，以p的概率隨機選擇一部分參數進行訓練，其他參數不動；測試階段，使用所有參數進行預測。
Dropout有效的原因：因爲dropout的隨機選擇訓練參數的特性，相當於訓練了很多個小網絡（指數級增長），最後平均化訓練結果（相當於做了ensemble，模型泛化能力更強）。

2.4 Neuron Units（激活函數）

激活函數主要關注公式及對應的曲線；

2.4.1 Sigmoid

sigmoid 求導：

2.4.2 Tanh

tanh函數爲sigmoid函數的可替代品，且比sigmoid函數更快收斂。區別在於sigmoid取值範圍爲[0,1]，而tanh函數取值範圍爲[-1,1]。

2.4.3 Hard tanh

2.4.4 Soft sign

2.4.5 ReLU(Rectified Linear Unit)

2.4.6 Leaky ReLU

2.5 Data Preprocessing（數據預處理）

2.5.1 Mean Subtraction（去均值化）

Mean Subtraction就是在訓練數據中，計算均值，對每個樣本減去均值。一個重要的點是：均值計算過程只在訓練集中進行，得到的均值同時適用於訓練集，驗證集，測試集。

2.5.2 Normalization（歸一化）

歸一化是爲了把不同維度的特徵規範到同個範疇內，具體做法是對每個特徵除以各自的標準差。

2.5.3 Whitening

白化是將數據轉換爲恆等協方差的矩陣。

2.6 Parameter Initialization

一個好的參數初始化的策略是：將權重初始化在0附近的較小隨機數

實驗表明，上述初始化策略對於sigmoid和tanh激活函數，能更快地收斂和達到更低的錯誤率。
而偏置通常被初始化爲0.

2.7 Learning Strategies

其中， $\alpha$ 爲學習率，可以控制模型參數的學習速率。學習率的設置應該是先大後小。

2.9 Adaptive Optimization Methods

自適應優化方法，目的是爲了更好地控制學習率。
RMS：

從該式子可以看到，學習率跟訓練過程中的梯度有關，梯度累積越大，學習率越小（梯度累積越大，說明模型學到的東西更多，隨着學習過程的進行，學習率應該越來越低）。
Adam：

相比RMS，Adam多了個參數m，來控制學習率的變化。

參考：Neural Networks, Backpropagation

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

大模型微調提升AI應用性能

隨着人工智能技術的不斷髮展和普及，越來越多的領域開始應用AI技術來解決實際問題。其中，大模型作爲一種重要的技術手段，得到了廣泛的應用。然而，如何提高大模型的性能，使其更好地適應各種應用場景，一直是業界關注的焦點。本文將介紹一種有效的技術手段

2024-04-28 11:30:14

LoRA微調語言大模型的實用技巧

一、引言隨着深度學習技術的快速發展，語言大模型在自然語言處理領域取得了顯著的進展。然而，傳統的微調方法通常需要大量的計算資源和時間，對於實際應用來說並不友好。爲了解決這個問題，LoRA微調技術應運而生。LoRA（Low-Rank Adap

2024-04-28 11:30:13

LLaMA 2語言大模型的微調策略：LoRA與全參數選擇

隨着自然語言處理（NLP）技術的飛速發展，大型語言模型（LLMs）在各個領域都展現出了強大的能力。LLaMA 2作爲其中的佼佼者，具有巨大的潛力。然而，如何有效地對LLaMA 2進行微調，以適應特定的任務或數據集，成爲了一個關鍵問題。本文將

2024-04-23 11:29:21

文心大模型“你說我畫”：PaddleHub與PaddleSpeech的協同實踐

在人工智能領域中，自然語言處理和計算機視覺是兩個非常活躍的研究方向。隨着深度學習技術的發展，這兩個領域之間的交叉融合產生了許多令人興奮的應用場景。其中，“你說我畫”就是這樣一個結合自然語言處理和計算機視覺技術的創新應用。 “你說我畫”的核心

2024-04-22 11:29:20

探索時間序列大模型：TimeGPT的魅力與實踐

在數據科學的各個領域中，時間序列分析一直扮演着重要角色。無論是預測股票價格、氣候變化，還是分析醫療數據，時間序列模型都發揮着不可或缺的作用。然而，傳統的時間序列分析方法在處理複雜數據時常常面臨諸多挑戰，如數據稀疏性、非線性關係等。爲了應對這

2024-04-22 11:29:17

01-大語言模型發展

AI大模型的相關的一些基礎知識，一些背景和基礎知識。多模型強應用AI 2.0時代應用開發者的機會。 0 大綱 AI產業的拆解和常見名詞應用級開發者，在目前這樣一個大背景下的一個職業上面的一些機會實戰部分的，做這個agent，即所謂智

2024-04-22 01:12:50

Pinecone: 大模型時代的智能索引與搜索解決方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

軟件測試從自動化到智能化，大模型開始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

深入解析大模型NLP LLaMa

在人工智能和自然語言處理（NLP）領域，LLaMa（Language-Model-driven Learning, aMplification and aDAptation）流程已經成爲處理大規模模型訓練的關鍵技術。它基於語言模型的學習、增

2024-04-18 11:29:54

從零開始學習大模型

隨着人工智能技術的快速發展，大模型已成爲許多領域的熱門話題。然而，大模型的創建並不是一件容易的事情。在本文中，我們將從零開始學習如何創建一個大模型，幫助讀者掌握大模型的創建過程。一、數據收集創建大模型的首要任務是收集數據。數據是大模型的

2024-04-16 11:29:26

Hugging Face推出全新代碼大模型：支持80+編程語言，集成VSCode

隨着人工智能技術的不斷髮展，代碼大模型成爲了近年來備受矚目的技術熱點。作爲自然語言處理領域的領軍企業，Hugging Face近日推出了一款全新的代碼大模型，該模型支持80+種編程語言，並與VSCode進行了集成，爲用戶提供了前所未有的代碼

2024-04-16 11:29:25

深度解析大模型推理框架：原理、應用與實踐

在當今數據驅動的時代，大模型推理框架已經成爲人工智能領域的重要支柱。本文將通過簡明扼要、清晰易懂的方式，帶領讀者深入瞭解大模型推理框架的原理、應用領域和實踐經驗，幫助讀者更好地掌握這一技術，並在實際工作中發揮其價值。一、大模型推理框架簡介

2024-04-11 23:28:49

RAG 修煉手冊｜一文講透 RAG 背後的技術

在之前的文章中《RAG 修煉手冊｜RAG敲響喪鐘？大模型長上下文是否意味着向量檢索不再重要》，我們已經介紹過 RAG 對於解決大模型幻覺問題的不可或缺性，也回顧瞭如何藉助向量數據庫提升 RAG 實戰效果。今天我們繼續剖析 RAG，將爲大

2024-04-10 21:20:11

一站式解讀多模態——Transformer、Embedding、主流模型與通用任務實戰（上）

本文章由飛槳星河社區開發者高宏偉貢獻。高宏偉，飛槳開發者技術專家（PPDE），飛槳領航團團長，長期在自媒體領域分享 AI 技術知識，博客粉絲 9w+，飛槳星河社區 ID 爲 GoAI 。分享分爲上下兩期，本期分享從多模態概念與意義、任務類型

2024-04-08 11:42:41

開源語言大模型

隨着人工智能技術的快速發展，開源語言大模型在各個領域的應用越來越廣泛。但是，如何正確選擇和應用開源語言大模型，以及如何在實踐中避免常見錯誤，對於很多初學者來說仍然是一個挑戰。本文將帶您走進開源語言大模型的世界，探索其原理、選擇、應用以及實踐

2024-04-08 11:31:14

24小時熱門文章

最新文章

最新評論文章