最新！乾貨滿滿的深度學習應用綜述

文章目錄

8 DL的應用

0 寫在前面

關於深度學習的綜述有一篇較爲經典的2015年綜述Deep Learning in Neural Networks - An Overview，這篇從技術本身層面或者說從神經網絡本身出發對深度學習做了概要。而在最近2019年的綜述A Survey of Deep Learning and Its Applications - A New Paradigm to Machine Learning中，出於今年深度學習的熱潮，該篇綜述更多地從宏觀應用層面介紹了深度學習目前的研究現狀與挑戰，筆者縱覽其文，在此加以個人的理解轉述之。

1 引言

深度學習(以下簡稱DL)其實可以說是傳統機器學習(以下簡稱ML)的一種縱向延伸，它的學習過程同樣包含訓練和測試兩個階段，即文中的training phase (includes labeling of large amounts of data and determin- ing their matching characteristics )和 inferring phase(deals with making conclusions and label new unexposed data using their previous knowledge)。但不同的是，經典的ML是需要人爲的設計特徵或者進行特徵提取，然後再進行學習分類任務，而DL是能夠自動地學習或者提取特徵並進行分類任務，這就完成了一個所謂end-to-end的過程，經典ML與DL在進行任務處理的區別如下：

這裏提到了自動學習提取特徵就順便需要提到表示學習(representation learning)，表示學習的定性理解可以參考本人博客表示學習(representation learning)的初印象。而在該篇綜述中表示學習理解如下：

Representational learning includes the set of methods that helps the machine to take the raw data as input and determines the representations for the detection and classification purpose

而DL的理解則是：

Deep learning techniques are purely such kind of learning methods that have multiple levels of representation and at more abstract level

簡單理解就是表示學習是用於確定需要或者重要的特徵即representations，而DL則是擁有多層representations的經典機器學習，DL的多層representation可以從表示學習那裏得到(本人的理解)。這種mutli-layers的representations就包含了用於特徵提取的許多非線性單元，在deep learning with python一書中也提到DL與ML的不同就是以一種新的更高級的(hierarchical)的方式去表示representations，這也是其deep的地方，所以DL有時候又叫deep structured learning或者hierarchical learning。因此綜述中也總結了DL方法中的兩個關鍵因素：

Nonlinear processing in multiple layers or stages.
Supervised or unsupervised learning.
第一個因素重點在於非線性和多層，第二個則跟傳統的機器學習類似。

2 DL的基本架構

常見的基本架構包括以下幾種：

自編碼器(Auto-Encoder, AE)
卷積神經網絡(Convolutional Neural Network , CNN)
受限玻爾茲曼機(Restricted Boltzmann Machine, RBM)
深度堆疊網絡(Deep Stacking Network, DSN)，又叫深度凸網絡(deep convex network)
Long Short Term Memory (LSTM)或Gated Recurrent Unit
(GRU) Network
循環神經網絡(Recurrent Neural Network, RNN)
以上除了DSN之外都可以在花書中找到詳細的理論知識，不同於一般的深度網絡，DSN包含幾個獨立的深度網絡，每個網絡都有相應的隱藏層，其工作原理可以表示如下：

這幾種基本結構的發展年限如下圖：

而近幾年比較流行的基本架構則是LSTM和RNN。

3 DL的高級架構

高級架構簡單陳列如下，如需要更多的瞭解可以針對每個架構拓展。

AlexNet

由包括三巨頭之一Geoffrey Hinton在內的研究團隊開發

Visual Graphic Group Net

即VGG

GoogleNet

比VGG快，有22層而VGG19層

ResNet

兼容性好：The main benefit of ResNet is that many residual layers are capable of forming a trained network

ResNeXt

基於ResNet但更好的新架構

RCNN (Regions with Convolutional Neural Network)

It depends upon designing a bounding box over the objects in the image and identifies the object given in the image

YoLo

SqueezeNet

在低帶寬下該架構是最有力的。

SegNet

該架構最適合處理圖像分割問題(the image segmentation problems)。

GAN

這是一種比較獨特的網絡架構，也是近幾年比較流行的一點

4 DL的特點

關於DL的特點原綜述陳列了很多點，總結如下：

純粹基於大於兩層(即deep)的神經網絡
有更強的學習能力，能更高效地利用數據，尤其在大數據領域有着更強的識別能力
能夠從數據中學習如何進行特徵提取或者能從高維數據中進行特徵提取，即所謂的表示學習相關，並且通過高級抽象，這些網絡可以提取複雜的特徵。
更好地解決高強度計算任務，不需要太多的手動工作就能得到較爲優化的結果
深度學習網絡依賴於網絡結構、激勵函數以及數據表示形式等特點
能夠使用較少的參數描述各種各樣的特徵(feature)，不依賴先驗的數據或知識
深度神經網絡有着獨特的數據表示形式，甚至對於大量未標記的數據有着新的表達方法
這些特點使得DL在各種領域都取得較大進展，如決策融合( decision fusion)，車載移動設備(on-board mobile devices)，遷移學習，類不平衡問題(class imbalance problems)和人類活動識別等新領域。

5 使用DL的動機

深度學習起於手寫數字識別，而CNN已經在這方面取得了巨大成功。以下是使用DL的一些動機：

DL能夠促進AI在企業中的運用，DL也是AI最基本的方法
當深度模型開始取代傳統方法時，尤其是在手寫識別、醫療保健、圖像分類、語音識別和自然語言處理方面，深度神經網絡在4到5年前就取得了卓越的成就。
對於大數據的趨勢下，深度學習方法將更加準確
英偉達，YES！
元學習(meta-learning)、強化學習以及對抗合作學習(Adversarial and cooperative learning)將是未來的重點

6 DL與經典ML的區別

願綜述列出了很多點，主要有：

DL的硬件要求更高，訓練速度更慢
DL適用於更大的數據，而經典ML適用於較少的數據
DL能夠自己學習特徵提取，並且其工作原理很難去解釋或理解

7 DL與傳統學習的區別

這裏的傳統學習(Conventional Learning)應該就是泛指比如經典ML的一類方法，其區別體現在以下幾個方面：

特徵提取與表示(Representation)

跟上文提到的一樣，DL能夠從原始數據中學習出易於分類識別的特徵，而傳統學習需要人爲設計特徵

泛化與多樣性

既然能夠自行學習特徵，那麼DL的泛化性顯然更高

數據準備

還是因爲能夠自行學習特徵，因此在準備數據方面DL不需要太過繁瑣甚至就是不需要。

模型訓練與執行時間

爲了防止過擬合，DL需要更多的數據，相應地執行時間會很長，通常需要GPU加速。

8 DL的應用

DL的應用十分廣泛，如下圖：

以下將逐條簡介，更多細節比如研究過程和原理還需要參考原綜述以及其他資料。

首先是圖像處理方面，

生物影像分類(Biological Image Classification)

這是近幾年以及未來的一個重點方面

圖像處理與分類(Image Recognition and Classification)

語義分割(Semantic Image Segmentation)

合成孔徑雷達(Synthetic Aperture Radar)

合成孔徑雷達可以參考百科，因其較強的地表穿透能力，可用於災害監測、環境監測、海洋監測等方面，與DL的結合將能更好地提高識別能力

遙感(Remote Sensing)

遙感參考百度百科，即對遠距離目標所輻射和反射的電磁波信息，進行收集、處理，並最後成像

人物再識別(Person re-identification)

Person re-identification is the task of associating images of the same person taken from different cameras or from the same camera in different occasions。即識別不同相機下或者不同場景相同相機下的同一個人，可以用於智能監視系統。

物體檢測(Object Detection)

Deep Vision System

Human Activity Recognition

比如穿戴機器人常碰到的步態識別

Parking System

即自動駕駛的泊車方面，主要使用圖像處理

Plant Classification

即植物分類

以下是語音、語義以及文本等方面

聲學建模(Acoustic Modeling)

包含語義識別(speech recognition)等方面

文本分析與識別(Document Analysis & Recognition)

Text/Document Summarization

語音識別(Speech Recognition)

包含不同國家語言甚至方言等

Writer Identification

即識別不同的寫作風格，或者說寫出多種風格的文字

關鍵詞定位(Word Spotting)

又叫keyword spotting，比如找到掃描圖像中的所有查詢詞

Voice Activity Detection

比如分離出語音信號的噪聲等

以下是其他的方面

Adaptive Testing

暫不分析

汽車行業(Automotive Industry)

大數據(Big Data)

這是前幾年比較火的一個方向

股票市場分析(Stock Market Analysis)

即類似於統計學預測股票的漲跌

Data Flow Graphs

暫時不作分析

醫學應用(Medical Applications)

包含很多方面，例如醫學成像，圖像識別、理解、分割與融合(image fusion)，計算機輔助診斷，可用於醫療保健、生物影像分類(Biological Image Classification)等

Mobile Multimedia

即在移動終端上使用深度學習引擎

電力系統故障診斷(Power System Fault Diagnosis)

無線網絡(Radio Wireless Networks)

比如使用自編碼器增加通信的準確性與穩定性

智慧城市(Smart City)

這是一個比較綜合的應用，包含物體檢測、人臉檢測各個方面

社會應用(Social Applications)

比如情緒分析(the sentiment analysis)等

9 DL的挑戰

儘管DL方法非常好且精確，但是仍然有一些挑戰或者說缺點需要克服，如下：

需要高算力以及相應的高性能GPU，對於複雜問題需要投入的成本高昂
沒有強力的理論支持，在上一節原綜述也提到 A detailed investigation in various complex deep neural network mod- els 是一項挑戰，也可以理解爲神經網絡的可解釋性
需要大量的訓練數據
容易陷入局部最小值問題
很難找到其拓撲結構和訓練參數
深度網絡更像是一個黑箱網絡，比較intractable
另外在上一節中也提到與模糊邏輯的結合也是DL的一個挑戰點

9 結論與未來展望

總結來看，首先需要注意作爲DL的兩個關鍵元素hierarchy of layers和 the supervision in learning。此外需要記住DL像是ML的一個延伸，即深度學習依賴於機器學習中現有算法(對應 the supervision in learning)的優化及其在多層次處理方面(對應hierarchy of layers)的創新。然後就是深度學習應用的領域將會很廣，比較熱門的有數字圖像處理和語音識別(speech recognition)等方面的應用。最後，DL這門科學纔剛剛起步，未來幾年將會在越來越多的方面，比如NLP、遙感和醫療保健，迎來大爆發。
DL未來的展望主要包括：

如何適應複雜、非靜態、含有多種噪聲的場景
如何通過提升特徵的多樣性來提高網絡的性能
非監督學習在線環境的兼容性，比如深度強化學習技術
發展高級深度生成模型(deep generative models with superior )以及高級時間建模能力用於參數語音識別系統(advanced temporal modeling abilities for the parametric
speech recognition system)。
在視頻追蹤與目標檢測方面使用深度網絡，甚至應用於全自動駕駛