Deep Learning方向的paper整理(1)

http://hi.baidu.com/chb_seaok/item/6307c0d0363170e73cc2cb65

個人閱讀的Deep Learning方向的paper整理,分了幾部分吧,但有些部分是有交叉或者內容重疊,也不必糾結於這屬於DNN還是CNN之類,個人只是大致分了個類。目前只整理了部分,剩餘部分還會持續更新。


一 RNN

1 Recurrent neural network based language model

  RNN用在語言模型上的開山之作


2 Statistical Language Models Based on Neural Networks

  Mikolov的博士論文,主要將他在RNN用在語言模型上的工作進行串聯


3 Extensions of Recurrent Neural Network Language Model

  開山之作的延續,RNN網絡的一些改進,如通過類別信息去降低模型的參數


4 A guide to recurrent neural networks and backpropagation

  RNN網絡的介紹以及優化算法,是瞭解RNN網絡的好文章


5 Training Recurrent Neural Networks

  Ilya Sutskever的博士論文,RNN網絡的訓練一直是個難點,介紹RNN網絡的訓練優化方法


6 Strategies for Training Large Scale Neural Network Language Models

  介紹訓練RNN網絡訓練語言模型的一些Trick


7 Recurrent Neural Networks for Language Understanding

  RNN網絡語義理解方面的工作


8 Empirical Evaluation and Combination of Advanced Language Modeling Techniques

  介紹一些語言模型聯合技術的一些經驗,其中有RNN語言模型與其他模型combinine的工作


9 Speech Recognition with Deep Recurrent Neural Networks

  RNN網絡用在語音識別方面的工作


10 A Neural Probabilistic Language Model

  不是RNN,Yoshua Bengio早期將神經網絡用於訓練語言模型的工作,也算是爲後續的RNN用於語言模型鋪好了基礎。


11 On the diffculty of training Recurrent Neural Networks

  介紹了RNN網絡訓練的難點,比如消失的梯度,以及提出的一些解決方法


12 Subword Language Modeling with Neural Networks

   詞級的語言模型由於OOV問題對新詞不適應,而字符級的語言模型雖然能克服這種問題,但是模型訓練的複雜度要提升,

   爲了將兩種特性結合提出了子詞級的RNN語言模型訓練,文中還利用k-means對模型參數進行了壓縮處理。


13 Performance Analysis of Neural Networks in Combination with N-Gram Language Models

   關於N-gram和神經網絡語言模型聯合模型的性能分析,從實驗的角度分析性能會提升


14 Recurrent Neural Network based Language Modeling in Meeting Recognition

   利用RNN與N-gram結合,重估得分提升語音識別系統性能


二 DNN

1 A practical guide to training restricted Boltzmann machines

  介紹RBM以及訓練RBM時的N多trick,如果要實現RBM算法,這篇文章必看


2 A fast learning algorithm for deep belief nets

  Hinton的經典之作,Deep Learning的開山之作,算是Deep Learning爆發的起點


3 A Learning Algorithm for Boltzmann Machines

  85年較老的介紹如何Boltzmann訓練算法


4 Greedy Layer-Wise Training of Deep Networks

  可以看作Yoshua Bengio對06年Hinton工作的延續和總結,與06年的文章很具有互補性,是入門Deep Learning的必備文章

  文章中也介紹了一些trick,如如何處理第一層節點爲實值的情況等等


5 Large Scale Distributed Deep Networks

  google的Jeffrey Dean小組工作,DistBelief框架的提出,主要介紹了google如何採用分佈式以及模型切分處理深度網絡,加速其訓練效果。


6 Context Dependent Pretrained Deep Neural Networks fo Large Vocabulary Speech Recognition

  微軟在語音上的成功應用,語音識別系統相對錯誤率降了20%多,算是Deep Learning在工業界第一個成功案例,其影響轟動一時。


7 Deep Belief Networks for phone recognition

  Hinton小組將DNN用於語音上的早期工作,是微軟工作的基礎


8 Application Of Pretrained Deep Neural Networks To Large Vocabulary Speech Recognition

  DNN在大詞彙量會話語音識別工作,裏面有一些Voice Search和Youtube上的實驗報道


9 An Empirical Study of Learning Rates in Deep Neural Networks for Speech Recognition

  google的DNN-HMM語音識別系統上學習率的一些調參經驗


10 Acoustic Modeling using Deep Belief Networks

  Hinton小組早期在語音上的工作,主要是介紹如何將DNN運用於聲學模型訓練


11 Deep Neural Networks for Acoustic Modeling in Speech Recognition

  微軟、google、IBM等幾家工業界巨頭對DNN在語音識別上的一些共同觀點


12 Deep Belief Networks Using Discriminative Features for Phone Recognition

  Hinton小組和IBM的對於採用一些區分性特徵訓練DNN網絡的工作,採用LDA降維到40維


13 A Comparison of Deep Neural Network Training Methods for Large Vocabulary Speech Recognition

  DNN實驗方面的對比,比如採用不同的預訓練方式:區分性預訓練和DBN生成式預訓練方式對比,以及神經元非線性的改變


14 Asynchronous Stochastic Gradient Desent for DNN Training

  中科院的文章,異步式的GPU並行訓練,思想基本跟DistBelief差不多,只不過硬件換成了GPU,模型沒有做切分


15 Improving Deep Neural Networks For LVCSR using Rectified Linear Units and Dropout

   利用ReLU和Dropout技術提升DNN-HMM系統


16 Improving the speed of neural networks on CPUs

   google加速神經網絡前向傳播速度的工作,如利用定點計算、SIMD技術等


17 Improved Bottleneck Features Using Pretrained Deep Neural Networks

   微軟DNN-HMM系統的相關工作


18 Improved feature processing for Deep Neural Networks

  利用特徵處理技術提升DNN-HMM系統,具體的是對13維MFCC特徵拼接9幀,進行LDA-MLLT變換,最後

  也可加入SAT模塊得到處理過的40維特徵,作爲DNN-HMM系統


19 Improving neural networks by preventing co-adaptation of feature detectors

  主要講了Dropout技術和其實驗比較結果分析,把Dropout看做模型平均化結果


20 Exploiting Sparseness in Deep Neural Networks fo Large Vocabulary Speech Recognition

   採用soft regularization和convex constraint的手段使DNN模型更加的稀疏化,稀疏化的目的是

   減小模型複雜度,提升計算速度和模型的泛化能力

  

21 Feature Learning in Deep Neural Networks Studies on Speech Recognition Tasks

   主要從Feature Learning的角度討論DNN網絡,討論了爲何DNN網絡deeper更佳,爲什麼DNN能學出更魯邦的特徵等等。


22 Improving Neural Networks with Dropout

   Hinton學生Nitish Srivastava的碩士論文,主要討論了Droput技術在神經網絡的作用。


23 Learning Features from Music Audio with Deep Belief Networks

   DNN深度網絡在音樂分類的應用,特徵爲MFCC,類別爲hiphop、blues等曲風類型


24 Low-Rank Matrix Factorization for Deep Neural Network Training with High-Dimensional Output Targets

   IBM方面的工作,利用低秩矩陣分解的技術解決DNN分類層權重參數過多的問題


25 Multilingual Training of Deep Neural Networks

   DNN多語言方面的應用,調優的時候只調分類層參數即可


26 A Cluster-Based Multiple Deep Neural Networks Method for Large Vocabulay Continuous Speech Recognition

   利用類別信息分數據訓練,然後將所有數據訓練出的小模型信息整合進了貝葉斯框架,加速了整個訓練過程,但精度會損失,解碼

   也會變慢


27 Restructuring of Deep Neural Network Acoustic Models with Singular Value 

   提出採用SVD技術對權重矩陣進行壓縮,減少模型的複雜度


28 Sparse Feature Learning for Deep Belief Networks

   Marc’Aurelio Ranzato提出的一種unsupervised feature learning的方式,這種訓練的優勢在於低維特性和稀疏特性,

   文中對比了RBM和PCA方法。


29 Training products of experts by minimizing contrastive

   Hinton提出的PoE模型,文中討論瞭如何訓練PoE模型,RBM模型也是一種特殊的PoE模型,RBM的訓練也是從此演化而來,如果

   要理解CD算法原理,這篇文章必讀。


30 Understanding How Deep Belief Networks Perform Acoustic Modelling

   文中主要討論了DBN模型爲什麼在聲學模型訓練會取得較好系統性能的幾個方面,但是沒有理論上的支持.


31 Pipelined Back-Propagation for Context-Dependent Deep Neural Networks

   採用多GPU技術pipelined方式並行訓練網絡,文中還提到了一些並行措施,如數據並行化、模型並行化


32 Recent Advances in Deep Learning for Speech Research at Microsoft

   文章主要介紹了微軟在Deep Learning方面工作的進展,如迴歸原始特徵,多任務特徵學習、DNN模型的自適應等等


32 Rectified Linear Units Improve Restricted Boltzmann Machines

   介紹ReLU技術在RBM模型上的運用,即非線性層的替換。


33 Reducing the Dimensionality of Data with Neural Networks

   Hinton發表在science上的文章,主要介紹瞭如何利用神經網絡進行非線性降維,文中對比了PCA線性降維技術


34 Data Normalization in the Learning of Restricted Boltzmann Machines

   RBM訓練方面數據處理的小trick,對數據進行零均值化處理使RBM訓練更魯邦。


35 Connectionist Probability Estimators in HMM Speech Recognition

   早期神經網絡運用於聲學模型訓練的方法,其實也是現在DNN-HMM工作的基礎


36 Deep Learning for Robust Feature Generation in Audio-Visual Emotion Recognition

   Deep Learning在視聽系統情感分析的運用,文中提出了多種視覺信號與聽覺信號混合訓練模型


37 Improving Training Time of Deep Belief Networks Through Hybrid Pre-Training And Larger Batch Sizes

   採用混合式的預訓練方式,即生成式預訓練和區分式預訓練相結合方式,文中還認爲加大minbatch的尺寸可以增加數據並行化粒度


38 Training Restricted Boltzmann Machines using Approximations to the Likelihood Gradient

   提出訓練RBM的新算法PCD,與CD算法不同的是全程只有一條馬爾科夫鏈,參數更新時不用重啓一條新的馬爾科夫鏈,當然這麼做的一個

   假設前提是參數更新時,模型的改變不是很大,文中也提到了採用小的學習率。


39 Classification using Discriminative Restricted Boltzmann Machines

   區分性DRBM的提出,相比於生成式模型RBM優化的是p(x,y)函數,區分性DRBM優化的是p(y|x)函數,而這裏的y是標籤,文中還提出了混合版本。


40 Learning Multiple Layers of Features from Tiny Images

   Hinton學生Alex Krizhevsky的碩士論文,主要是DNN工作的一些串聯


41 Making Deep Belief Networks Effective for Large Vocabulary Continuous Speech Recognition

   討論如何有效訓練DNN,側重於如何並行訓練方面


42 Optimization Techniques to Improve Training Speed of Deep Neural Networks for Large Speech Tasks

   IBM的Tara N. Sainath小組DNN工作上的一些技巧總結,側重於如何提升並行化力度技巧和減少模型參數,IBM主要利用對分類層做低秩矩陣分解。

   而CNN雖然是DNN的演化版本,參數量相對較小,但是目前語音識別中最好的CNN效果跟參數量相近的DNN效果差不多。


43 Parallel Training of Neural Networks for Speech Recognition

   神經網絡並行化訓練方面的工作,文中的工作主要分爲兩部分:多線程多核的並行化和基於SIMD的GPU並行化。


44 Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices

   google在移動端語音識別實踐性的工作,特別是DNN和LM的優化,DNN的優化方面主要包括定點計算、SIMD加速、Batch lazy計算和frame skipping技術

   語言模型方面也做一定的壓縮技巧。參考價值較大的實戰性文章。


45 Cross-Language Knowledge Transfer Using Multilingual Deep Neural Network with Shared Hidden Layers

   DNN多語言的訓練,所有語言共享相同隱層特徵,而分類層面向不同語言,這種訓練降低了3-5%左右,原因有點類似於transfer learning,

   不同語言之間的知識是可以transfer借鑑的。


46 Improving Wideband Speech Recognition using Mixed-Bandwidth Training Data in CD-DNN-HMM

   利用8-kHz和16-kHz做不同的頻帶的CD-DNN-HMM混合訓練,其中比較重要的是如何設計不同頻帶的filter-bank對準問題,

   文中還有一些關於filter-bank的訓練技巧,如是否採用動態特徵和靜態特徵訓練。


47 Robust Visual Recognition Using Multilayer Generative Neural Networks 

   Hinton學生Yichuan Tang的碩士論文,DNN視覺識別方面工作的串聯


48 Deep Boltzmann Machines

   DBM模型開篇文章。


49 On Rectified Linear Units for Speech Processing

   ReLU在語音識別上的性能分析



三 CNN

1 Deep Convolutional Network Cascade for Facial Point Detection

  CNN用在人臉關鍵點檢測工作


2 Applying Convolutional Neural Networks Concepts to Hybrid NN-HMM Model for Speech Recognition

  CNN運用於語音識別系統


3 ImageNet Classification with Deep Convolutional Neural Networks

  12年Hinton組在ImageNet競賽上的CNN算法,不過細節不多,裏面介紹了網絡中使用的trick,特別是relu


4 Gradient-Based Learning Applied to Document Recognition

  Yann LeCun的經典文章,CNN開山之作,要了解CNN必先讀這篇


5 A Theoretical Analysis of Feature Pooling in Visual Recognition

  Pooling在視覺識別中的原理分析以及視覺識別中的比如HOG、SIFT一些類似手段總結


6 What is the Best Multi-Stage Architecture for Object Recognition

  文中討論了在OR問題上怎麼樣去設計多級結構以獲取較好的識別性能,談的更多地是模型架構上的問題,如通過怎麼樣的結構

  獲取特徵的不變性,怎麼樣去聯合層級的信息,做視覺的應該好好看看這篇文章


7 Deep Convolutional Neural Networks for LVCSR

  CNN在LVCSR上實際運用


8 Learning Mid-Level Features For Recognition

  這篇論文視覺的應該看下,對當前視覺識別框架的分析以及框架個部分的關聯,比如coding和pooling技術。


9 Convolutional Networks and Applications in Vision

  卷積網絡在視覺應用的分析,做視覺的應該看看。文中認爲分層的思想是視覺應用當中良好的內部表達。文中將卷積網絡拆分成

  Filter Bank層、非線性層、pooling層進行分析。


10 Convolutional Neural Networks Applied to House Numbers Digit Classification

  卷積網絡用在房屋數字分類的案例,文中採用了LP pooling技術,通過gaussian kernel產生增大stronger特徵權重,抑制weaker特徵權重的效應。


11 Visualizing and Understanding Convolutional Networks

   卷積網絡特徵可視化方面的工作,非常有意義的工作,通過Deconvnet的方式來可視化卷積網絡層的特徵,藉助於這些特徵可以幫助我們調整模型。


12 Stochastic Pooling for Regularization of Deep Convolutional Neural Networks

   提出隨機pooling技術,不同於max pooling和average pooling,pooling的形式是隨機化選擇的,

   文章觀點認爲隨機pooling技術類似於dropout一樣做了正則化作用,等價於輸入圖像通過加噪聲形成很多不同複製訓練樣本通過max pooling層,有效地防止過擬合


13 Adaptive Deconvolutional Networks for Mid and High Level Feature Learning

   中層、高層特徵無監督的學習方法,通過Deconvolution方式進行重構學習出圖像特徵。


14 Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis

   實踐性的卷積網絡方面工作,文中提到如何應對訓練數據較少情況的方法可以參考下。


15 Multi-column Deep Neural Networks for Image Classification

   聯合多個深度網絡模型做平均化處理。


16 Differentiable Pooling for Hierarchical Feature Learning

   一種基於高斯方法的Differentiable Pooling提出,閱讀這篇文章先要閱讀13文章,相比max pooling、average pooling在運用

   Deconvolution方式進行重構會有一些優勢。


17 Notes on Convolutional Neural Networks

   較爲詳細的卷積神經網絡,包括梯度的計算等等。


18 Fast Inference in Sparse Coding Algorithms with Applications to Object Recognition

   非監督學習的算法PSD,在Sparse Coding框架的基礎上,加了通過非線性變換後的基接近Sparse Coding的稀疏基的限制。

   優化目標函數的時候會先固定住一些參數,思想有點類似於座標梯度下降算法。


19 Deep Neural Networks for Object Detection

   google用基於DNN(實際是CNN)regression做Object Detection,先析出mask,然後再精確定位。


20 Multi-GPU Training of ConvNets

   多GPU並行訓練卷積網絡的一些工程技巧


21 Flexible, High Performance Convolutional Neural Networks for Image Classification

   CNN採用GPU訓練的實戰性文章,算是早期文章。


22 Multi-digit Number Recognition from Street View Imagery using Deep Convolutional Neural Networks

   google街景數字圖片識別,用CNN析出特徵後轉化爲有序數字序列識別問題,傳統的OCR數字識別一般是要做分割,

   而這裏作爲一個整體序列進行識別,文中還報道了提出模型在多種數據集下的識別率。訓練的框架也是採用google的DistBelief框架。




四 其他

1 An Introduction to Deep Learning

  Deep Learning綜述性的短文,比較簡短,文中只是簡單地提到了一些常用Deep Learning模型


2 The Difficulty of Training Deep Architectures and the Effect of Unsupervised Pre-Training

  文中主要討論了深度結構訓練的難點,從實驗數據的角度分析了預訓練的優勢,文中有一個有趣的觀點,討論預訓練的行爲

  類似於正則化權重矩陣。


3 Why Does Unsupervised Pre-training Help Deep Learning

  文章討論了無監督學習會幫助Deep Learning的幾個方面,提出了Pre-training as a Regularizer的觀點,從實驗數據中分析,

  並沒有理論的基礎,這也是Deep Learning的現階段最被人詬病的,沒有完整的理論體系支撐。


4 Learning Deep Architectures for AI

  Yoshua Bengio在Deep Learning的綜述文章,想要大概瞭解Deep Learning領域可以先看看這篇,可以掃着看。


5 Representation Learning A Review and New Perspectives

  Yoshua Bengio的在Representation Learning的綜述性文章。


6 On Optimization Methods for Deep Learning

  文中討論了Deep Learning的幾種優化方式:SGD、L-BFGS、CG。實驗對別了幾種優化方式的優缺點。


7 Using Very Deep Autoencoders for Content-Based Image Retrieval

  用Autoencoder的中間節點表徵圖像全局特徵,用於圖像搜索。


8 Deep Learning For Signal And Information Processing

  2013年龍星機器學習鄧力的講課資料,主要側重於deep learning在語音方面,比較詳細。


9 On the Importance of Initialization and Momentum in Deep Learning

  介紹初始化和Momentum技術在deep learning方面的重要性,更多的是在實驗分析上


10 Dropout Training as Adaptive Regularization

   文章從原理上分析dropout技術,等價於自適應的正則化技術


11 Deep learning via Hessian-free optimization

   目前大部分的Deep learning優化都是基於隨機梯度優化算法,本文提出了一種基於Hessian-free的二階優化算法。


12 Deep Stacking Networks For Information Retrival

  DSN網絡用在信息檢索方面的工作


13 Deep Convex Net: A Scalable Architecture for Speech Pattern Classification

  微軟方面爲了克服DNN並行化訓練困難所設計出來的模型,在計算的scalability有很大優勢


14 Parallel Training of Deep Stacking Networks

  DSN訓練並行化


15 Scalable CALABLE Stacking and Learning for Building Deep Architectures

  DSN方面的關聯文章,相關的幾篇都可以聯合起來一起看

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章