原创 動手學深度學習-20 數據增強

在深度卷積神經網絡 裏我們提到過,大規模數據集是成功應用深度神經網絡的前提。圖像增廣(image augmentation)技術通過對訓練圖像做一系列隨機改變,來產生相似但又不同的訓練樣本,從而擴大訓練數據集的規模。圖像增廣的另一種解釋是

原创 動手學深度學習-19 優化算法進階

Momentum 目標函數有關自變量的梯度代表了目標函數在自變量當前位置下降最快的方向。因此,梯度下降也叫作最陡下降(steepest descent)。在每次迭代中,梯度下降根據自變量當前位置,沿着當前位置的梯度更新自變量。然而,如果自

原创 動手學深度學習-18 梯度下降

論文:Boyd, S., & Vandenberghe, L. (2004). Convex Optimization. Cambridge, England: Cambridge University Press. %matplotl

原创 動手學深度學習-16 Transformer

Transformer 在之前的章節中,我們已經介紹了主流的神經網絡架構如卷積神經網絡(CNNs)和循環神經網絡(RNNs)。讓我們進行一些回顧: CNNs 易於並行化,卻不適合捕捉變長序列內的依賴關係。 RNNs 適合捕捉長距離變長序列

原创 動手學深度學習-15 注意力機制與Seq2seq模型

注意力機制 在“編碼器—解碼器(seq2seq)”⼀節⾥,解碼器在各個時間步依賴相同的背景變量(context vector)來獲取輸⼊序列信息。當編碼器爲循環神經⽹絡時,背景變量來⾃它最終時間步的隱藏狀態。將源序列輸入信息以循環單位狀態

原创 動手學深度學習-14 機器翻譯及相關技術

機器翻譯和數據集 機器翻譯(MT):將一段文本從一種語言自動翻譯爲另一種語言,用神經網絡解決這個問題通常稱爲神經機器翻譯(NMT)。 主要特徵:輸出是單詞序列而不是單個單詞。 輸出序列的長度可能與源序列的長度不同。 數據集是英語和法語互譯

原创 動手學深度學習-09 批量歸一化和殘差網絡

批量歸一化(BatchNormalization) 對輸入的標準化(淺層模型) 處理後的任意一個特徵在數據集中所有樣本上的均值爲0、標準差爲1。 標準化處理輸入數據使各個特徵的分佈相近 批量歸一化(深度模型) 利用小批量上的均值和標準差,

原创 動手學深度學習-10 文本預處理

文本是一類序列數據,一篇文章可以看作是字符或單詞的序列,本節將介紹文本數據的常見預處理步驟,預處理通常包括四個步驟: 讀入文本 分詞 建立字典,將每個詞映射到一個唯一的索引(index) 將文本從詞的序列轉換爲索引的序列,方便輸入模型 讀

原创 動手學深度學習-08 卷積神經網絡進階

深度卷積神經網絡(AlexNet) LeNet: 在大的真實數據集上的表現並不盡如⼈意。 1.神經網絡計算複雜。 2.還沒有⼤量深⼊研究參數初始化和⾮凸優化算法等諸多領域。 機器學習的特徵提取:手工定義的特徵提取函數 神經網絡的特徵提取:

原创 動手學深度學習-05 梯度消失和梯度爆炸

梯度消失、梯度爆炸以及Kaggle房價預測 梯度消失和梯度爆炸 考慮到環境因素的其他問題 Kaggle房價預測 梯度消失和梯度爆炸 深度模型有關數值穩定性的典型問題是消失(vanishing)和爆炸(explosion)。 當神經網絡的層

原创 動手學深度學習-11 語言模型

       語言模型  n元語法     數據稀疏:是因爲很多數據算出來都是0 語言模型數據集 讀取數據集 with open('/home/kesci/input/jaychou_lyrics4703/jaychou_lyri

原创 動手學深度學習-04 過擬合、欠擬合及其解決方案

一、過擬合、欠擬合及其解決方案 過擬合、欠擬合的概念 權重衰減 丟棄法 模型選擇、過擬合和欠擬合 訓練誤差和泛化誤差 在解釋上述現象之前,我們需要區分訓練誤差(training error)和泛化誤差(generalization err

原创 動手學深度學習-02 softmax和分類模型

    softmax和分類模型 內容包含: softmax迴歸的基本概念 如何獲取Fashion-MNIST數據集和讀取數據 softmax迴歸模型的從零開始實現,實現一個對Fashion-MNIST訓練集中的圖像數據進行分類的模型 使

原创 動手學深度學習-03 多層感知機

多層感知機 多層感知機的基本知識 使用多層感知機圖像分類的從零開始的實現 使用pytorch的簡潔實現 多層感知機的基本知識 深度學習主要關注多層模型。在這裏,我們將以多層感知機(multilayer perceptron,MLP)爲例,

原创 Task06:批量歸一化和殘差網絡;凸優化;梯度下降

一、批量歸一化和殘差網絡