台部落like alone

模型選擇、過擬合和欠擬合訓練誤差和泛化誤差在解釋上述現象之前，我們需要區分訓練誤差（training error）和泛化誤差（generalization error）。通俗來講，前者指模型在訓練數據集上表現出的誤差，後者指模

2020-07-03 10:04:29

門控循環神經網絡 RNN存在的問題：梯度較容易出現衰減或爆炸（BPTT）⻔控循環神經⽹絡：捕捉時間序列中時間步距離較⼤的依賴關係 GRU #參數初始化 num_inputs, num_hiddens, num_outputs

2020-07-03 10:04:29

寫在開頭：內容大部分來自伯禹學習平臺什麼是機器學習由 Tom Mitchel給出的更加數學化的定義：機器學習是一門硏究學習算法的學科，這些算法能夠：在某些任務T上、通過經驗E、提升性能P、非顯式編程實現一個學習任務可以由三

2020-07-03 10:04:29

內容來源：伯禹學習平臺反向傳播算法西瓜書神經網絡反向傳播算法推導激活函數總結

2020-07-03 10:04:29

內容來源：伯禹學習平臺隨機事件與概率隨機事件 1.隨機試驗特點：可在相同條件下重複進行，一次試驗之前無法確定具體是哪種結果出現，但能確定所有的可能結果舉例：擲一顆色子，可能出現不同的點數、拋一枚硬幣，可能出現正面或者反面、

2020-07-03 10:04:29

Task03:梯度消失和爆炸梯度消失和梯度爆炸：　　　　深度模型有關數值穩定性的典型問題是梯度消失和梯度爆炸。當神經網絡的層數較多時，模型的數值穩定性更容易變差。層數較多時，梯度的計算也容易出現消失或爆炸。梯度消失是因爲隨着

2020-07-03 10:04:29

文本預處理文本是一類序列數據，一篇文章可以看作是字符或單詞的序列，本節將介紹文本數據的常見預處理步驟，預處理通常包括四個步驟：讀入文本分詞建立字典，將每個詞映射到一個唯一的索引（index）將文本從詞的序列轉換爲索引的

2020-02-20 17:00:11

寫在開頭：內容來源：伯禹學習平臺課程部分內容參考下面鏈接文章：https://blog.csdn.net/b1055077005/article/details/100152102 Softmax與分類模型 1.softmax解

2020-02-20 17:00:11

卷積神經網絡感受野 LeNet架構卷積層互相關運算與卷積運算卷積層得名於卷積運算，但卷積層中用到的並非卷積運算而是互相關運算。我們將核數組上下翻轉、左右翻轉，再與輸入數組做互相關運算，這一過程就是卷積運算。由於卷積

2020-02-20 17:00:11

內容來源：伯禹學習平臺課程注意力機制不同的attetion layer的區別在於score函數的選擇，在本節的其餘部分，我們將討論兩個常用的注意層 Dot-product Attention 和 Multilayer Pe

2020-02-20 17:00:11

來源：伯禹學習平臺普適逼近定理深度學習思想簡介深度學習定義循環神經網絡從零實現 #數據讀取 import torch import torch.nn as nn import time import math impo

2020-02-20 17:00:11

機器翻譯機器翻譯（MT）：將一段文本從一種語言自動翻譯爲另一種語言，用神經網絡解決這個問題通常稱爲神經機器翻譯（NMT）。主要特徵：輸出是單詞序列而不是單個單詞。輸出序列的長度可能與源序列的長度不同。 import os o

2020-02-20 17:00:11

寫在開頭，內容大部分來自伯禹學習平臺從零實現 import torch from Ipython import display import matplotlib.pyplot as plt import numpy as np

2020-02-20 17:00:11

寫在開頭：內容大部分來自伯禹學習平臺梯度更新方式批量梯度下降隨機梯度下降小批量梯度下降基本搜索步驟隨機選擇一個參數初始化根據數據和梯度算法來更新直到走到局部一個最小區域凸優化目標函數具有唯一最小點凸

2020-02-20 17:00:11