第一章 緒論
- 深度學習是機器學習的一個分支,是指一類問題以及解決這類問題的方法。
- 神經網絡:一種以(人工)神經元爲基本單元的模型
- 深度學習主要解決貢獻度分配問題
- 每個組件都會對信息進行加工,並進而影響後續的組件,所以當得到最後的輸出結果時,我們並不清楚其中每個組件的貢獻度是多少。
- (人工)神經網絡:比較好解決貢獻度分配問題的模型;
- 神經網絡和深度學習並不等價,深度學習包含了神經網絡,神經網絡作爲深度學習主要採用的模型。
- 圖靈測試->對智能的定義
一個人在不接觸對方的情況下,通過一種特殊的方式和對方進行一系列的問答,如果在相當長時間內,他無法根據這些問題判斷對方是人還是計算機,那麼就可以認爲這個計算機是智能的。
-
AI一詞的提出:1956年的達特茅斯會議;
-
AI定義(John):AI就是要讓機器的行爲看起來就像人所表現出的智能行爲一樣。
-
AI 延伸出來的子學科
(1)機器感知:CV、語音信息處理;
(2)學習:模式識別、機器學習、強化學習;
(3) 認知:
1) 語言:NLP;
2)記憶:知識表示;
3)決策:規劃、數據挖掘 ......
1.1 人工智能的發展歷史
1.1.1 人工智能經歷的時期
- 推理期
- 1956年的達特茅斯會議之後;
- 基於人類經驗、邏輯或者事實歸納出的規則;
- 幾何定理證明器、語言翻譯器等;
- 推理規則過於簡單,對項目難度評估不足,AI的研究陷入低谷。
- 知識期
- 20世紀70年代;
- 知識對於AI系統的重要性;
- 出現各類專家系統[亦稱爲基於知識的系統](知識庫+推理機);
- 領域專家級認識;
- 模擬專家思維;
- 達到專家級的水平;
- prolog語言作爲開發工具;
- 基於邏輯學理論而創建的邏輯編程語言,最初被用於NLP、邏輯推理等領域。
- 學習期
- 20世紀80年代;
- 知識+推理很難實現例如語言理解、圖像理解等智能系統;
- 機器學習。
1.1.2 AI的流派
- 符號主義
- 亦邏輯主義、心理學派或計算機學派;
- 假設 :(1)信息可以用符號表示;(2)符號可以通過顯式的規則(如邏輯運算)來操作;
- AI的推理期和知識期,符號主義爲主;
- 優點:可解釋;
- 連接主義
- 亦仿生學派或生理學派;
- 人類的認知過程是由大量簡單神經元構成的神經網絡中的信息處理過程,而不是符號運算。
- 特性:非線性、分佈式、並行化、局部性及自適應性。
- 缺點:缺乏解釋性;
1.2 機器學習
- 從有限的觀測數據中學習出具有一般性規律,並利用這些規律對未知數據進行預測的方法。
- 傳統機器學習——》淺層學習(Shallow Learning):不涉及特徵學習,其特徵主要靠人工經驗或特徵轉換方法來抽取。
當我們用機器學習來解決一些模式識別任務時,一般的流程包含以下幾個步驟:
特徵處理一般都需要人工干預完成,利用人類的經驗來選取好的特徵,因而很多機器學習問題變成了特徵工程
1.3 表示學習
- 表示:將輸入信息轉換爲有效的特徵。
- 表示學習:一種算法可以自動地學習出有效的特徵,並提高最終機器學習模型的性能。
- 關鍵解決問題:語義鴻溝[輸入數據的底層特徵和高層語義信息之間的不一致性和差異性]
- 好的表示的條件
- 具有很強的表示能力,即同樣大小的向量可以表示更多的信息;
- 好的表示應該使後續的學習任務變得簡單,即需要包含更高層的語義信息;
- 具有一般性;但目前的多數表示學習方法是基於某個任務來學習,期望學習到的表示比較容易地遷移到其他任務上
- 表示特徵
(1)局部表示(離散表示 or 符號表示)
優點:
1) 具有很好的解釋性,利於人工歸納和總結特徵,並通過特徵組合進行高效的特徵工程;
2)通過多種特徵組合得到的表示向量通常是稀疏的二值向量,當用於線性模型時計算效率非常高。
缺點:
1)one-hot向量的維數很高,且不能擴展;
2)不同向量之間的相似度爲0;
(2)分佈式表示(低緯的稠密向量)
優點:
1)表示能力強,維度低;
2)不同向量之間的相似度可計算;
- 嵌入:將一個度量空間中的一些對象映射到另一個低緯的度量空間中,並儘可能保持不同對象之間的拓撲關係。(例如詞嵌入)
- 深層結構的特點:增加特徵的重用性,進而指數級別增加表示能力。
傳統的特徵提取:
- 線性投影(子空間):PCA、LDA
- 非線性嵌入:LLE、Isomap、譜方法
- 自編碼器
特徵提取VS表示學習
- 特徵提取:基於任務或先驗對去除無用特徵
- 表示學習:通過深度模型學習高層語義特徵
1.4 深度學習
-
避免特徵工程
通過構建具有一定“深度”的模型,可以讓模型來自動學習好的特徵表示(從底層特徵,到中層特徵,再到高層特徵),從而最終提升預測或識別的準確性。
-
深度學習的數學描述
-
關鍵問題:貢獻度分配問題;
-
神經網絡天然不是深度學習,深度學習天然是神經網絡
-
端到端學習:在學習過程中不進行分模塊或分階段訓練,直接優化任務的總體目標。
1.5 神經網絡
1.5.1 生物神經元
-
單個神經細胞只有兩種狀態:興奮和抑制
-
赫布法則:如果兩個神經元總是相關聯地受到刺激,他們之間的突觸強度增加。
-
人腦有兩種記憶:長期記憶和短期記憶。
-
短期記憶持續時間不超過一分鐘。如果一個經驗重複足夠的次數,此經驗就可儲存在長期記憶中。
-
短期記憶轉化爲長期記憶的過程就稱爲凝固作用。
-
人腦中的海馬區爲大腦結構凝固作用的核心區域。
1.5.2 人工神經網絡
人工神經網絡主要由大量的神經元以及它們之間的有向連接構成。因此考慮三方面:
- 神經元的激活規則:主要是指神經元輸入到輸出之間的映射關係,一般爲非線性函數。
- 網絡的拓撲結構:不同神經元之間的連接關係。
- 學習算法:通過訓練數據來學習神經網絡的參數。
人工神經網絡由神經元模型構成,這種由許多神經元組成的信息處理網絡具有並行分佈結構。
雖然這裏將 神經網絡結構大體上分爲三種類型,但是大多數網絡都是複合型結構,即一個神經網絡中包括多種網絡結構。
如何解決貢獻度分配問題?
1.5.3 神經網絡發展史
- 模型提出
- 1943~1969
- 1943:MP模型:Warren,基於簡單邏輯運算;
- 1948:B型圖靈機,Alan,基於赫布法則;
- 1951:感知器,迭代算法, McCulloch和Marvin;
- 冰河期
- 1969~1983
- 1969:Marvin,《感知器》指出神經網絡的兩個關鍵缺陷:(1)感知機無法處理異或問題;(2)算力不支持;
- 1974:Paul,BP算法;
- 1980:福島邦彥,新知機,帶卷積核子採樣操作的多層神經網絡,採用無監督學習的方式訓練;
- 反向傳播算法復興
- 1983~1995
- 1983:John,Hopfield網絡,用於聯想記憶;
- 1984:Geoffrey,隨機化版本的Hopfield網絡,即玻爾茲曼機;
- 1986:分佈式並行處理[PDP],BP成爲PDP的主要算法;
- 1989:LeCun,將BP引入CNN中,並應用在MNIST數據集上;
- 目前深度學習中使用的自動微分,是BP的擴展;
- 但梯度消失問題阻礙神經網絡的進一步發展;
- 流行度降低,SVM強勢出場
- 1995~2006
- 計算機性能和數據規模不足以支撐大規模神經網絡
- 統計學習理論和SVM佔優勢
- 神經網絡的理論基礎不清晰、優化困難、可解釋性差問題凸顯
- 深度學習的崛起
- 2006:預訓練+精調,Hinton;
- 2012:在語音識別[Hinton],圖像分類任務[Krizhevsky]上獲得成功;
- 強大的算力,海量的數據規模
1.6 其他學習資料
- 如何設計模型結構、有效地學習模型的參數、優化模型性能以及在不同任務上的應用
- Bengio Y, Courville A, Vincent P. Representation learning: A review and new perspectives[J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(8):1798-1828.
- 全面瞭解人工神經網絡和深度學習知識
- 2016,Goodfellow,《Deep Learning》
- Bengio Y. Learning deep architectures for AI[J]. Foundations and trends in Machine Learning,2009, 2(1):1-127
- 神經網絡的歷史
- Anderson J A, Rosenfeld E. Talking nets: An oral history of neural networks[M]. MIT Press, 2000
- 深度學習會議
- 國際表示學習會議,ICLR,聚焦深度學習;
- 神經信息處理系統年會,NeurIPS,神經信息處理,統計方法,學習理論及應用;
- 國際機器學習會議,ICML,機器學習頂級會議,深度學習作爲近年來的熱點;
- 國際人工智能聯合會議,IJCAI,AI最頂尖的綜合性會議;
- 美國人工智能協會年會,AAAI,AI的頂級會議。
- 計算機視覺與模式識別大會:CVPR;
- 國際計算機視覺會議,ICCV;
- 計算語言學年會,ACL;
- 自然語言處理實證方法大會,EMNLP;
最後附上此書的知識體系圖,如下