深度學習術語表與解析

第一部分:

深度學習名詞表:57個專業術語加相關資料解析(附論文)

http://waterbolik.github.io/%E4%BA%BA%E5%B7%A5%E6%99%BA%E8%83%BD/2016/10/08/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%9C%AF%E8%AF%AD%E8%A1%A8

本文整理了一些深度學習領域的專業名詞及其簡單釋義,同時還附加了一些相關的論文或文章鏈接。本文編譯自 wildml,作者仍在繼續更新該表,編譯如有錯漏之處請指正。文章中的論文與 PPT 讀者可點擊鏈接下載。

Activation Function激活函數

爲了讓神經網絡能夠學習複雜的決策邊界(decision boundary),我們在其一些層應用一個非線性激活函數。最常用的函數包括 sigmoid、tanh、ReLU(Rectified Linear Unit 線性修正單元) 以及這些函數的變體。

Adadelta

Adadelta 是一個基於梯度下降的學習算法,可以隨時間調整適應每個參數的學習率。它是作爲 Adagrad 的改進版提出的,它比超參數(hyperparameter)更敏感而且可能會太過嚴重地降低學習率。Adadelta 類似於 rmsprop,而且可被用來替代 vanilla SGD。

Adagrad

Adagrad 是一種自適應學習率算法,能夠隨時間跟蹤平方梯度並自動適應每個參數的學習率。它可被用來替代vanilla SGD (http://www.wildml.com/deep-learning-glossary/#sgd);而且在稀疏數據上更是特別有用,在其中它可以將更高的學習率分配給更新不頻繁的參數。

Adam

Adam 是一種類似於 rmsprop 的自適應學習率算法,但它的更新是通過使用梯度的第一和第二時刻的運行平均值(running average)直接估計的,而且還包括一個偏差校正項。

Affine Layer 仿射層

神經網絡中的一個全連接層。仿射(Affine)的意思是前面一層中的每一個神經元都連接到當前層中的每一個神經元。在許多方面,這是神經網絡的「標準」層。仿射層通常被加在卷積神經網絡或循環神經網絡做出最終預測前的輸出的頂層。仿射層的一般形式爲 y = f(Wx + b),其中 x 是層輸入,w 是參數,b 是一個偏差矢量,f 是一個非線性激活函數。

Attention Mechanism 注意機制

注意機制是由人類視覺注意所啓發的,是一種關注圖像中特定部分的能力。注意機制可被整合到語言處理和圖像識別的架構中以幫助網絡學習在做出預測時應該「關注」什麼。

Alexnet

Alexnet 是一種卷積神經網絡架構的名字,這種架構曾在 2012 年 ILSVRC 挑戰賽中以巨大優勢獲勝,而且它還導致了人們對用於圖像識別的卷積神經網絡(CNN)的興趣的復甦。它由 5 個卷積層組成。其中一些後面跟隨着最大池化(max-pooling)層和帶有最終 1000 條路徑的 softmax (1000-way softmax)的 3個全連接層。Alexnet 被引入到了使用深度卷積神經網絡的 ImageNet 分類中。

Autoencoder 自編碼器

自編碼器是一種神經網絡模型,它的目標是預測輸入自身,這通常通過網絡中某個地方的「瓶頸(bottleneck)」實現。通過引入瓶頸,我們迫使網絡學習輸入更低維度的表徵,從而有效地將輸入壓縮成一個好的表徵。自編碼器和 PCA 等降維技術相關,但因爲它們的非線性本質,它們可以學習更爲複雜的映射。目前已有一些範圍涵蓋較廣的自編碼器存在,包括 降噪自編碼器(Denoising Autoencoders)、變自編碼器(Variational Autoencoders)和序列自編碼器(Sequence Autoencoders)。

  • 降噪自編碼器論文:Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion
  • 變自編碼器論文:Auto-Encoding Variational Bayes
  • 序列自編碼器論文:Semi-supervised Sequence Learning

Average-Pooling 平均池化

平均池化是一種在卷積神經網絡中用於圖像識別的池化(Pooling)技術。它的工作原理是在特徵的局部區域上滑動窗口,比如像素,然後再取窗口中所有值的平均。它將輸入表徵壓縮成一種更低維度的表徵。

BackPropagation 反向傳播

反向傳播是一種在神經網絡中用來有效地計算梯度的算法,或更一般而言,是一種前饋計算圖(feedforward computational graph)。其可以歸結成從網絡輸出開始應用分化的鏈式法則,然後向後傳播梯度。反向傳播的第一個應用可以追溯到 1960 年代的 Vapnik 等人,但論文 Learning representations by back-propagating errors常常被作爲引用源。

BPTT:Backpropagation Through Time 通過時間的反向傳播

通過時間的反向傳播是應用於循環神經網絡(RNN)的反向傳播算法。BPTT 可被看作是應用於 RNN 的標準反向傳播算法,其中的每一個時間步驟(time step)都代表一個計算層,而且它的參數是跨計算層共享的。因爲 RNN 在所有的時間步驟中都共享了同樣的參數,一個時間步驟的錯誤必然能「通過時間」反向到之前所有的時間步驟,該算法也因而得名。當處理長序列(數百個輸入)時,爲降低計算成本常常使用一種刪節版的 BPTT。刪節的 BPTT 會在固定數量的步驟之後停止反向傳播錯誤。

  • 論文:Backpropagation Through Time: What It Does and How to Do It

BN:Batch Normalization 分批標準化

分批標準化是一種按小批量的方式標準化層輸入的技術。它能加速訓練過程,允許使用更高的學習率,還可用作規範器(regularizer)。人們發現,分批標準化在卷積和前饋神經網絡中應用時非常高效,但尚未被成功應用到循環神經網絡上。

  • 論文:分批標準化:通過減少內部協變量位移(Covariate Shift)加速深度網絡訓練(Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift)
  • 論文:使用分批標準化的循環神經網絡(Batch Normalized Recurrent Neural Networks)

Bidirectional RNN 雙向循環神經網絡

雙向循環神經網絡是一類包含兩個方向不同的 RNN 的神經網絡。其中的前向 RNN 從起點向終點讀取輸入序列,而反向 RNN 則從終點向起點讀取。這兩個 RNN 互相彼此堆疊,它們的狀態通常通過附加兩個矢量的方式進行組合。雙向 RNN 常被用在自然語言問題中,因爲在自然語言中我們需要同時考慮話語的前後上下文以做出預測。

  • 論文:雙向循環神經網絡(Bidirectional Recurrent Neural Networks)

Caffe

Caffe 是由伯克利大學視覺和學習中心開發的一種深度學習框架。在視覺任務和卷積神經網絡模型中,Caffe 格外受歡迎且性能優異

Categorical Cross-Entropy Loss 分類交叉熵損失

分類交叉熵損失也被稱爲負對數似然(negative log likelihood)。這是一種用於解決分類問題的流行的損失函數,可用於測量兩種概率分佈(通常是真實標籤和預測標籤)之間的相似性。它可用 L = -sum(y * log(y_prediction)) 表示,其中 y 是真實標籤的概率分佈(通常是一個one-hot vector),y_prediction 是預測標籤的概率分佈,通常來自於一個 softmax。

Channel 信道

深度學習模型的輸入數據可以有多個信道。圖像就是個典型的例子,它有紅、綠和藍三個顏色信道。一個圖像可以被表示成一個三維的張量(Tensor),其中的維度對應於信道、高度和寬度。自然語言數據也可以有多個信道,比如在不同類型的嵌入(embedding)形式中。

CNN/ConvNet:Convolutional Neural Network 卷積神經網絡

CNN 使用卷積連接從輸入的局部區域中提取的特徵。大部分 CNN 都包含了卷積層、池化層和仿射層的組合。CNN 尤其憑藉其在視覺識別任務的卓越性能表現而獲得了普及,它已經在該領域保持了好幾年的領先。

DBN:Deep Belief Network 深度信念網絡

DBN 是一類以無監督的方式學習數據的分層表徵的概率圖形模型。DBN 由多個隱藏層組成,這些隱藏層的每一對連續層之間的神經元是相互連接的。DBN 通過彼此堆疊多個 RBN(限制波爾茲曼機)並一個接一個地訓練而創建。

  • 論文:深度信念網絡的一種快速學習算法(A fast learning algorithm for deep belief nets)

Deep Dream

這是谷歌發明的一種試圖用來提煉深度卷積神經網絡獲取的知識的技術。這種技術可以生成新的圖像或轉換已有的圖片從而給它們一種幻夢般的感覺,尤其是遞歸地應用時。

Dropout

Dropout 是一種用於神經網絡防止過擬合的正則化技術。它通過在每次訓練迭代中隨機地設置神經元中的一小部分爲 0 來阻止神經元共適應(co-adapting),Dropout 可以通過多種方式進行解讀,比如從不同網絡的指數數字中隨機取樣。Dropout 層首先通過它們在卷積神經網絡中的應用而得到普及,但自那以後也被應用到了其它層上,包括輸入嵌入或循環網絡。

  • 論文:Dropout: 一種防止神經網絡過擬合的簡單方法(Dropout: A Simple Way to Prevent Neural Networks from Overfitting)
  • 論文:循環神經網絡正則化(Recurrent Neural Network Regularization)

Embedding 嵌入

一個嵌入映射到一個輸入表徵,比如一個詞或一句話映射到一個矢量。一種流行的嵌入是詞語嵌入(word embedding,國內常用的說法是:詞向量),如 word2vec 或 GloVe。我們也可以嵌入句子、段落或圖像。比如說,通過將圖像和他們的文本描述映射到一個共同的嵌入空間中並最小化它們之間的距離,我們可以將標籤和圖像進行匹配。嵌入可以被明確地學習到,比如在 word2vec 中;嵌入也可作爲監督任務的一部分例如情感分析(Sentiment Analysis)。通常一個網絡的輸入層是通過預先訓練的嵌入進行初始化,然後再根據當前任務進行微調(fine-tuned)。

Exploding Gradient Problem 梯度爆炸問題

梯度爆炸問題是梯度消失問題(Vanishing Gradient Problem)的對立面。在深度神經網絡中,梯度可能會在反向傳播過程中爆炸,導致數字溢出。解決梯度爆炸的一個常見技術是執行梯度裁剪(Gradient Clipping)。

  • 論文:訓練循環神經網絡的困難之處(On the difficulty of training Recurrent Neural Networks)

Fine-Tuning 微調

Fine-Tuning 這種技術是指使用來自另一個任務(例如一個無監督訓練網絡)的參數初始化網絡,然後再基於當前任務更新這些參數。比如,自然語言處理架構通常使用 word2vec 這樣的預訓練的詞向量(word embeddings),然後這些詞向量會在訓練過程中基於特定的任務(如情感分析)進行更新。

Gradient Clipping 梯度裁剪

梯度裁剪是一種在非常深度的網絡(通常是循環神經網絡)中用於防止梯度爆炸(exploding gradient)的技術。執行梯度裁剪的方法有很多,但常見的一種是當參數矢量的 L2 範數(L2 norm)超過一個特定閾值時對參數矢量的梯度進行標準化,這個特定閾值根據函數:新梯度=梯度_閾值/L2範數(梯度){new_gradients = gradients_ threshold / l2_norm(gradients)}確定。

  • 論文:訓練循環神經網絡的困難之處(On the difficulty of training Recurrent Neural Networks)

GloVe

Glove 是一種爲話語獲取矢量表徵(嵌入)的無監督學習算法。GloVe 的使用目的和 word2vec 一樣,但 GloVe 具有不同的矢量表徵,因爲它是在共現(co-occurrence)統計數據上訓練的。

  • 論文:GloVe:用於詞彙表徵(Word Representation)的全局矢量(Global Vector)(GloVe: Global Vectors for Word Representation )

GoogleLeNet

GoogleLeNet 是曾贏得了 2014 年 ILSVRC 挑戰賽的一種卷積神經網絡架構。這種網絡使用 Inception 模塊(Inception Module)以減少參數和提高網絡中計算資源的利用率。

  • 論文:使用卷積獲得更深(Going Deeper with Convolutions)

GRU:Gated Recurrent Unit 門控循環單元

GRU(Gated Recurrent Unit:門控循環單元)是一種 LSTM 單元的簡化版本,擁有更少的參數。和 LSTM 細胞(LSTM cell)一樣,它使用門控機制,通過防止梯度消失問題(vanishing gradient problem)讓循環神經網絡可以有效學習長程依賴(long-range dependency)。GRU 包含一個復位和更新門,它們可以根據當前時間步驟的新值決定舊記憶中哪些部分需要保留或更新。

Highway Layer

Highway Layer 是使用門控機制控制通過層的信息流的一種神經網絡層。堆疊多個 Highway Layer 層可讓訓練非常深的網絡成爲可能。Highway Layer 的工作原理是通過學習一個選擇輸入的哪部分通過和哪部分通過一個變換函數(如標準的仿射層)的門控函數來進行學習。Highway Layer 的基本公式是 T h(x) + (1 – T) x;其中 T 是學習過的門控函數,取值在 0 到 1 之間;h(x) 是一個任意的輸入變換,x 是輸入。注意所有這些都必須具有相同的大小。

  • 論文:Highway Networks

ICML:International Conference for Machine Learning 國際機器學習大會

即國際機器學習大會(International Conference for Machine Learning),一個頂級的機器學習會議。

ILSVRC:ImageNet Large Scale Visual Recognition Challenge 即 ImageNet 大型視覺識別挑戰賽

即 ImageNet 大型視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge),該比賽用於評估大規模對象檢測和圖像分類的算法。它是計算機視覺領域最受歡迎的學術挑戰賽。過去幾年中,深度學習讓錯誤率出現了顯著下降,從 30% 降到了不到 5%,在許多分類任務中擊敗了人類。

Inception Module:Inception模塊

Inception模塊被用在卷積神經網絡中,通過堆疊 1×1 卷積的降維(dimensionality reduction)帶來更高效的計算和更深度的網絡。

  • 論文:使用卷積獲得更深(Going Deeper with Convolutions)

Keras

Kears 是一個基於 Python 的深度學習庫,其中包括許多用於深度神經網絡的高層次構建模塊。它可以運行在 TensorFlow 或 Theano 上。

LSTM:Long Short-Term Memory 長短期記憶

長短期記憶(Long Short-Term Memory)網絡通過使用內存門控機制防止循環神經網絡(RNN)中的梯度消失問題(vanishing gradient problem)。使用 LSTM 單元計算 RNN 中的隱藏狀態可以幫助該網絡有效地傳播梯度和學習長程依賴(long-range dependency)。

Max-Pooling 最大池化

池化(Pooling)操作通常被用在卷積神經網絡中。一個最大池化層從一塊特徵中選取最大值。和卷積層一樣,池化層也是通過窗口(塊)大小和步幅尺寸進行參數化。比如,我們可能在一個 10×10 特徵矩陣上以 2 的步幅滑動一個 2×2 的窗口,然後選取每個窗口的 4 個值中的最大值,得到一個 5×5 特徵矩陣。池化層通過只保留最突出的信息來減少表徵的維度;在這個圖像輸入的例子中,它們爲轉譯提供了基本的不變性(即使圖像偏移了幾個像素,仍可選出同樣的最大值)。池化層通常被安插在連續卷積層之間。

MNIST

MNIST數據集可能是最常用的一個圖像識別數據集。它包含 60,000 個手寫數字的訓練樣本和 10,000 個測試樣本。每一張圖像的尺寸爲 28×28像素。目前最先進的模型通常能在該測試集中達到 99.5% 或更高的準確度。

Momentum 動量

動量是梯度下降算法(Gradient Descent Algorithm)的擴展,可以加速和阻抑參數更新。在實際應用中,在梯度下降更新中包含一個動量項可在深度網絡中得到更好的收斂速度(convergence rate)。

  • 論文:通過反向傳播(back-propagating error)錯誤學習表徵

MLP:Multilayer Perceptron 多層感知器

多層感知器是一種帶有多個全連接層的前饋神經網絡,這些全連接層使用非線性激活函數(activation function)處理非線性可分的數據。MLP 是多層神經網絡或有兩層以上的深度神經網絡的最基本形式。

NLL:Negative Log Likelihood 負對數似然

參見分類交叉熵損失(Categorical Cross-Entropy Loss)。

分類交叉熵損失(Categorical Cross-Entropy Loss)也被稱爲負對數似然(negative log likelihood)。這是一種用於解決分類問題的流行的損失函數,可用於測量兩種概率分佈(通常是真實標籤和預測標籤)之間的相似性。它可用 L = -sum(y * log(y_prediction)) 表示,其中 y 是真實標籤的概率分佈(通常是一個one-hot vector),y_prediction 是預測標籤的概率分佈,通常來自於一個 softmax。

NMT:Neural Machine Translation 神經網絡機器翻譯

NMT 系統使用神經網絡實現語言(如英語和法語)之間的翻譯。NMT 系統可以使用雙語語料庫進行端到端的訓練,這有別於需要手工打造特徵和開發的傳統機器翻譯系統。NMT 系統通常使用編碼器和解碼器循環神經網絡實現,它可以分別編碼源句和生成目標句。

  • 論文:使用神經網絡的序列到序列學習(Sequence to Sequence Learning with Neural Networks)
  • 論文:爲統計機器翻譯使用 RNN 編碼器-解碼器學習短語表徵(Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation)

NTM:Neural Turing Machine 神經圖靈機

NTM 是可以從案例中推導簡單算法的神經網絡架構。比如,NTM 可以通過案例的輸入和輸出學習排序算法。NTM 通常學習記憶和注意機制的某些形式以處理程序執行過程中的狀態。

  • 論文:神經圖靈機(Neural Turing Machines)

Nonlinearity 非線性

  • 參見激活函數(Activation Function)。

NCE:Noise-Contrastive Estimation 噪音對比估計

噪音對比估計是一種通常被用於訓練帶有大輸出詞彙的分類器的採樣損失(sampling loss)。在大量的可能的類上計算 softmax 是異常昂貴的。使用 NCE,我們可以將問題降低成二元分類問題,這可以通過訓練分類器區別對待取樣和「真實」分佈以及人工生成的噪聲分佈來實現。

  • 論文:噪音對比估計:一種用於非標準化統計模型的新估計原理(Noise-contrastive estimation: A new estimation principle for unnormalized statistical models )
  • 論文:使用噪音對比估計有效地學習詞向量(Learning word embeddings efficiently with noise-contrastive estimation)

Pooling 池化

參見最大池化(Max-Pooling)或平均池化(Average-Pooling)。

RBN:Restricted Boltzmann Machine 受限玻爾茲曼機

RBN 是一種可被解釋爲一個隨機人工神經網絡的概率圖形模型。RBN 以無監督的形式學習數據的表徵。RBN 由可見層和隱藏層以及每一個這些層中的二元神經元的連接所構成。RBN 可以使用對比散度(contrastive divergence)進行有效的訓練,這是梯度下降的一種近似。

  • 第六章:動態系統中的信息處理:和諧理論基礎
  • 論文:受限玻爾茲曼機簡介(An Introduction to Restricted Boltzmann Machines)

RNN:Recurrent Neural Network 循環神經網絡

RNN 模型通過隱藏狀態(或稱記憶)連續進行相互作用。它可以使用最多 N 個輸入,併產生最多 N 個輸出。比如,一個輸入序列可能是一個句子,其輸出爲每個單詞的詞性標註(part-of-speech tag)(N 到 N);一個輸入可能是一個句子,其輸出爲該句子的情感分類(N 到 1);一個輸入可能是單個圖像,其輸出爲描述該圖像所對應一系列詞語(1 到 N)。在每一個時間步驟中,RNN 會基於當前輸入和之前的隱藏狀態計算新的隱藏狀態「記憶」。其中「循環(recurrent)」這個術語來自這個事實:在每一步中都是用了同樣的參數,該網絡根據不同的輸入執行同樣的計算。

Recursive Neural Network 遞歸神經網絡

遞歸神經網絡是循環神經網絡的樹狀結構的一種泛化(generalization)。每一次遞歸都使用相同的權重。就像 RNN 一樣,遞歸神經網絡可以使用向後傳播(backpropagation)進行端到端的訓練。儘管可以學習樹結構以將其用作優化問題的一部分,但遞歸神經網絡通常被用在已有預定義結構的問題中,如自然語言處理的解析樹中。

  • 論文:使用遞歸神經網絡解析自然場景和自然語言(Parsing Natural Scenes and Natural Language with Recursive Neural Networks )

ReLU:Rectified Linear Unit 線性修正單元

即線性修正單元(Rectified Linear Unit)。ReLU 常在深度神經網絡中被用作激活函數。它們的定義是 f(x) = max(0, x) 。ReLU 相對於 tanh 等函數的優勢包括它們往往很稀疏(它們的活化可以很容易設置爲 0),而且它們受到梯度消失問題的影響也更小。ReLU 主要被用在卷積神經網絡中用作激活函數。ReLU 存在幾種變體,如Leaky ReLUs、Parametric ReLU (PReLU) 或更爲流暢的 softplus近似。

  • 論文:深入研究修正器(Rectifiers):在 ImageNet 分類上超越人類水平的性能(Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification)
  • 論文:修正非線性改進神經網絡聲學模型(Rectifier Nonlinearities Improve Neural Network Acoustic Models )
  • 論文:線性修正單元改進受限玻爾茲曼機(Rectified Linear Units Improve Restricted Boltzmann Machines )

ResNet:Residual Network 殘差網絡

深度殘差網絡(Deep Residual Network)贏得了 2015 年的 ILSVRC 挑戰賽。這些網絡的工作方式是引入跨層堆棧的快捷連接,讓優化器可以學習更「容易」的殘差映射(residual mapping)而非更爲複雜的原映射(original mapping)。這些快捷連接和 Highway Layer 類似,但它們與數據無關且不會引入額外的參數或訓練複雜度。ResNet 在 ImageNet 測試集中實現了 3.57% 的錯誤率。

  • 論文:用於圖像識別的深度殘差網絡(Deep Residual Learning for Image Recognition)

RMSProp

RMSProp 是一種基於梯度的優化算法。它與 Adagrad 類似,但引入了一個額外的衰減項抵消 Adagrad 在學習率上的快速下降。

Seq2Seq:Sequence-to-Sequence 序列到序列

序列到序列(Sequence-to-Sequence)模型讀取一個序列(如一個句子)作爲輸入,然後產生另一個序列作爲輸出。它和標準的 RNN 不同;在標準的 RNN 中,輸入序列會在網絡開始產生任何輸出之前被完整地讀取。通常而言,Seq2Seq 通過兩個分別作爲編碼器和解碼器的 RNN 實現。神經網絡機器翻譯是一類典型的 Seq2Seq 模型。

  • 論文:使用神經網絡的序列到序列學習(Sequence to Sequence Learning with Neural Networks)

SGD:Stochastic Gradient Descent 隨機梯度下降

隨機梯度下降是一種被用在訓練階段學習網絡參數的基於梯度的優化算法。梯度通常使用反向傳播算法計算。在實際應用中,人們使用微小批量版本的 SGD,其中的參數更新基於批案例而非單個案例進行執行,這能增加計算效率。vanilla SGD 存在許多擴展,包括動量(Momentum)、Adagrad、rmsprop、Adadelta 或 Adam。

Softmax

Softmax 函數通常被用於將原始分數(raw score)的矢量轉換成用於分類的神經網絡的輸出層上的類概率(class probability)。它通過對歸一化常數(normalization constant)進行指數化和相除運算而對分數進行規範化。如果我們正在處理大量的類,例如機器翻譯中的大量詞彙,計算歸一化常數是很昂貴的。有許多種可以讓計算更高效的替代選擇,包括分層 Softmax(Hierarchical Softmax)或使用基於取樣的損失函數,如 NCE。

TensorFlow

TensorFlow是一個開源 C ++ / Python 軟件庫,用於使用數據流圖的數值計算,尤其是深度神經網絡。它是由谷歌創建的。在設計方面,它最類似於 Theano,但比 Caffe 或 Keras 更低級。

TensorFlow是谷歌基於DistBelief進行研發的第二代人工智能學習系統,其命名來源於本身的運行原理。Tensor(張量)意味着N維數組,Flow(流)意味着基於數據流圖的計算,TensorFlow爲張量從圖象的一端流動到另一端計算過程。TensorFlow是將複雜的數據結構傳輸至人工智能神經網中進行分析和處理過程的系統。

TensorFlow可被用於語音識別或圖像識別等多項機器深度學習領域,對2011年開發的深度學習基礎架構DistBelief進行了各方面的改進,它可在小到一部智能手機、大到數千臺數據中心服務器的各種設備上運行。TensorFlow將完全開源,任何人都可以用。

TensorFlow 表達了高層次的機器學習計算,大幅簡化了第一代系統,並且具備更好的靈活性和可延展性。TensorFlow一大亮點是支持異構設備分佈式計算,它能夠在各個平臺上自動運行模型,從手機、單個CPU / GPU到成百上千GPU卡組成的分佈式系統。

從目前的文檔看,TensorFlow支持CNN、RNN和LSTM算法,這都是目前在Image,Speech和NLP最流行的深度神經網絡模型。

TensorFlow官方文檔中文版協同翻譯庫

TPU:Tensor Processing Unit:TensorFlow處理單元

Google在2016年5月谷歌在I/O開發者大會上披露了自行設計的定製芯片—-TPU(Tensor Processing Unit):TensorFlow處理單元,業內也有翻譯爲張量處理器。這種芯片是爲谷歌的TensorFlow開源深度學習框架專門訂製,而且這個名字靈感也是來源於此。(Tensor是類似矩陣一樣的數組,在深度計算中往往要進行相乘運算)

TPU之所以具有良好的機器學習能力,是因爲這種芯片具有比較寬的容錯性,這就意味着,達到與通用芯片相同的學習效果,TPU不需要通用芯片那樣多的晶體管,不需要通用芯片上那樣多的程序操作步驟,也就是說,相同數量的晶體管,在TPU上能做更多的學習工作。

谷歌研發TPU的意圖並要非取代CPU或者FPGE,谷歌認爲,TPU是介於CPU和ASIC (application-specific integrated circuit:應用集成電路)之間的芯片。ASIC用於專門的任務,比如去除噪聲的電路,播放視頻的電路,但是ASIC是明顯的短板是不可更改任務。通用CPU可以通過編程來適應各種任務,但是效率能耗比就不如ASIC。一如前邊所言,在機器學習方面,TPU同時具備了CPU與ADIC的特點,可編程,高效率,低能耗。

從目前的運行效果來看,TPU每瓦能耗的學習效果和效率都比傳統的CPU、GPU高出一個數量級,達到了摩爾定律預言的七年後的CPU的運行效果。

據谷歌介紹,TPU已在谷歌的數據中心運行了一年多,表現非常好。事實上,谷歌的很多應用都用到了TPU,比如谷歌街景,以及AlphaGo等。谷歌稱,在AlphaGo戰勝李世石的系列賽中,TPU能讓AlphaGo”思考”更快,”想”到更多棋招、更好地預判局勢。

Theano

Theano 是一個讓你可以定義、優化和評估數學表達式的 Python 庫。它包含許多用於深度神經網絡的構造模塊。Theano 是類似於 TensorFlow 的低級別庫。更高級別的庫包括Keras 和 Caffe。

Vanishing Gradient Problem 梯度消失問題

梯度消失問題出現在使用梯度很小(在 0 到 1 的範圍內)的激活函數的非常深的神經網絡中,通常是循環神經網絡。因爲這些小梯度會在反向傳播中相乘,它們往往在這些層中傳播時「消失」,從而讓網絡無法學習長程依賴。解決這一問題的常用方法是使用 ReLU 這樣的不受小梯度影響的激活函數,或使用明確針對消失梯度問題的架構,如LSTM。這個問題的反面被稱爲梯度爆炸問題(exploding gradient problem)。

  • 論文:訓練循環神經網絡的困難之處(On the difficulty of training Recurrent Neural Networks)

VGG

VGG 是在 2014 年 ImageNet 定位和分類比賽中分別斬獲第一和第二位置的卷積神經網絡模型。這個 VGG 模型包含 16-19 個權重層,並使用了大小爲 3×3 和 1×1 的小型卷積過濾器。

  • 論文:用於大規模圖像識別的非常深度的卷積網絡(Very Deep Convolutional Networks for Large-Scale Image Recognition)

word2vec

word2vec 是一種試圖通過預測文檔中話語的上下文來學習詞向量(word embedding)的算法和工具 (https://code.google.com/p/word2vec/)。最終得到的詞矢量(wordvector)有一些有趣的性質,例如vector(‘queen’) ~= vector(‘king’) – vector(‘man’) + vector(‘woman’) (女王~=國王-男人+女人)。兩個不同的目標函數可以用來學習這些嵌入:Skip-Gram 目標函數嘗試預測一個詞的上下文,CBOW 目標函數則嘗試從詞上下文預測這個詞。

  • 論文:向量空間中詞彙表徵的有效評估(Efficient Estimation of Word Representations in Vector Space)
  • 論文:分佈式詞彙和短語表徵以及他們的組合性(Distributed Representations of Words and Phrases and their Compositionality)
  • 論文:解釋 word2vec 參數學習(word2vec Parameter Learning Explained)

  • 第二部分:



  • 鏈接:https://zhuanlan.zhihu.com/p/21284064


    activation 激活值activation function 激活函數additive noise 加性噪聲autoencoder 自編碼器Autoencoders 自編碼算法average firing rate 平均激活率average sum-of-squares error 均方差backpropagation 後向傳播basis 基basis feature vectors 特徵基向量batch gradient ascent 批量梯度上升法Bayesian regularization method 貝葉斯規則化方法Bernoulli random variable 伯努利隨機變量bias term 偏置項binary classfication 二元分類class labels 類型標記concatenation 級聯conjugate gradient 共軛梯度contiguous groups 聯通區域convex optimization software 凸優化軟件convolution 卷積cost function 代價函數covariance matrix 協方差矩陣DC component 直流分量decorrelation 去相關degeneracy 退化demensionality reduction 降維derivative 導函數diagonal 對角線diffusion of gradients 梯度的彌散eigenvalue 特徵值eigenvector 特徵向量error term 殘差feature matrix 特徵矩陣feature standardization 特徵標準化feedforward architectures 前饋結構算法feedforward neural network 前饋神經網絡feedforward pass 前饋傳導fine-tuned 微調first-order feature 一階特徵forward pass 前向傳導forward propagation 前向傳播Gaussian prior 高斯先驗概率generative model 生成模型gradient descent 梯度下降Greedy layer-wise training 逐層貪婪訓練方法grouping matrix 分組矩陣Hadamard product 阿達馬乘積Hessian matrix Hessian 矩陣hidden layer 隱含層hidden units 隱藏神經元Hierarchical grouping 層次型分組higher-order features 更高階特徵highly non-convex optimization problem 高度非凸的優化問題histogram 直方圖hyperbolic tangent 雙曲正切函數hypothesis 估值,假設identity activation function 恆等激勵函數IID 獨立同分布illumination 照明inactive 抑制independent component analysis 獨立成份分析input domains 輸入域input layer 輸入層intensity 亮度/灰度intercept term 截距KL divergence 相對熵KL divergence KL分散度k-Means K-均值learning rate 學習速率least squares 最小二乘法linear correspondence 線性響應linear superposition 線性疊加line-search algorithm 線搜索算法local mean subtraction 局部均值消減local optima 局部最優解logistic regression 邏輯迴歸loss function 損失函數low-pass filtering 低通濾波magnitude 幅值MAP 極大後驗估計maximum likelihood estimation 極大似然估計mean 平均值MFCC Mel 倒頻係數multi-class classification 多元分類neural networks 神經網絡neuron 神經元Newton's method 牛頓法non-convex function 非凸函數non-linear feature 非線性特徵norm 範式norm bounded 有界範數norm constrained 範數約束normalization 歸一化numerical roundoff errors 數值舍入誤差numerically checking 數值檢驗numerically reliable 數值計算上穩定object detection 物體檢測objective function 目標函數off-by-one error 缺位錯誤orthogonalization 正交化output layer 輸出層overall cost function 總體代價函數over-complete basis 超完備基over-fitting 過擬合parts of objects 目標的部件part-whole decompostion 部分-整體分解PCA 主元分析penalty term 懲罰因子per-example mean subtraction 逐樣本均值消減pooling 池化pretrain 預訓練principal components analysis 主成份分析quadratic constraints 二次約束RBMs 受限Boltzman機reconstruction based models 基於重構的模型reconstruction cost 重建代價reconstruction term 重構項redundant 冗餘reflection matrix 反射矩陣regularization 正則化regularization term 正則化項rescaling 縮放robust 魯棒性run 行程second-order feature 二階特徵sigmoid activation function S型激勵函數significant digits 有效數字singular value 奇異值singular vector 奇異向量smoothed L1 penalty 平滑的L1範數懲罰Smoothed topographic L1 sparsity penalty 平滑地形L1稀疏懲罰函數smoothing 平滑Softmax Regresson Softmax迴歸sorted in decreasing order 降序排列source features 源特徵sparse autoencoder 消減歸一化Sparsity 稀疏性sparsity parameter 稀疏性參數sparsity penalty 稀疏懲罰square function 平方函數squared-error 方差stationary 平穩性(不變性)stationary stochastic process 平穩隨機過程step-size 步長值supervised learning 監督學習symmetric positive semi-definite matrix 對稱半正定矩陣symmetry breaking 對稱失效tanh function 雙曲正切函數the average activation 平均活躍度the derivative checking method 梯度驗證方法the empirical distribution 經驗分佈函數the energy function 能量函數the Lagrange dual 拉格朗日對偶函數the log likelihood 對數似然函數the pixel intensity value 像素灰度值the rate of convergence 收斂速度topographic cost term 拓撲代價項topographic ordered 拓撲秩序transformation 變換translation invariant 平移不變性trivial answer 平凡解under-complete basis 不完備基unrolling 組合擴展unsupervised learning 無監督學習variance 方差vecotrized implementation 向量化實現vectorization 矢量化visual cortex 視覺皮層weight decay 權重衰減weighted average 加權平均值whitening 白化zero-mean 均值爲零

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章