原创 TASK03:過擬合、欠擬合解決方案

模型選擇、過擬合和欠擬合 訓練誤差和泛化誤差 在解釋上述現象之前,我們需要區分訓練誤差(training error)和泛化誤差(generalization error)。通俗來講,前者指模型在訓練數據集上表現出的誤差,後者指模

原创 task03:循環神經網絡進階

門控循環神經網絡 RNN存在的問題:梯度較容易出現衰減或爆炸(BPTT) ⻔控循環神經⽹絡:捕捉時間序列中時間步距離較⼤的依賴關係 GRU #參數初始化 num_inputs, num_hiddens, num_outputs

原创 2-12日內容1:機器學習概述

寫在開頭:內容大部分來自伯禹學習平臺 什麼是機器學習 由 Tom Mitchel給出的更加數學化的定義:機器學習是一門硏究學習算法的學科,這些算法能夠: 在某些任務T上、通過經驗E、提升性能P、非顯式編程實現 一個學習任務可以由三

原创 2月13日學習內容2:多層感知機

內容來源:伯禹學習平臺 反向傳播算法 西瓜書神經網絡反向傳播算法推導 激活函數總結

原创 2月14日學習內容1:語言處理

內容來源:伯禹學習平臺 隨機事件與概率 隨機事件 1.隨機試驗 特點:可在相同條件下重複進行,一次試驗之前無法確定具體是哪種結果出現,但能確定所有的可能結果 舉例:擲一顆色子,可能出現不同的點數、拋一枚硬幣,可能出現正面或者反面、

原创 TASK03:梯度

Task03:梯度消失和爆炸 梯度消失和梯度爆炸:     深度模型有關數值穩定性的典型問題是梯度消失和梯度爆炸。當神經網絡的層數較多時,模型的數值穩定性更容易變差。層數較多時,梯度的計算也容易出現消失或爆炸。 梯度消失是因爲隨着

原创 2月13日學習內容3 文本預處理

文本預處理 文本是一類序列數據,一篇文章可以看作是字符或單詞的序列,本節將介紹文本數據的常見預處理步驟,預處理通常包括四個步驟: 讀入文本 分詞 建立字典,將每個詞映射到一個唯一的索引(index) 將文本從詞的序列轉換爲索引的

原创 2月13日學習內容1:softmax

寫在開頭:內容來源:伯禹學習平臺課程 部分內容參考下面鏈接文章:https://blog.csdn.net/b1055077005/article/details/100152102 Softmax與分類模型 1.softmax解

原创 Task05:卷積神經網絡基礎+LeNet

卷積神經網絡 感受野 LeNet架構 卷積層 互相關運算與卷積運算 卷積層得名於卷積運算,但卷積層中用到的並非卷積運算而是互相關運算。我們將核數組上下翻轉、左右翻轉,再與輸入數組做互相關運算,這一過程就是卷積運算。由於卷積

原创 task04:注意力機制和Seq2seq模型

內容來源:伯禹學習平臺課程 注意力機制 不同的attetion layer的區別在於score函數的選擇,在本節的其餘部分,我們將討論兩個常用的注意層 Dot-product Attention 和 Multilayer Pe

原创 2月14日學習內容2:循環神經網絡

來源:伯禹學習平臺 普適逼近定理 深度學習思想簡介 深度學習定義 循環神經網絡從零實現 #數據讀取 import torch import torch.nn as nn import time import math impo

原创 Task04:機器翻譯

機器翻譯 機器翻譯(MT):將一段文本從一種語言自動翻譯爲另一種語言,用神經網絡解決這個問題通常稱爲神經機器翻譯(NMT)。 主要特徵:輸出是單詞序列而不是單個單詞。 輸出序列的長度可能與源序列的長度不同。 import os o

原创 2月12日內容3:線性迴歸python實現

寫在開頭,內容大部分來自伯禹學習平臺 從零實現 import torch from Ipython import display import matplotlib.pyplot as plt import numpy as np

原创 2月12日學習內容2:梯度下降

寫在開頭:內容大部分來自伯禹學習平臺 梯度更新方式 批量梯度下降 隨機梯度下降 小批量梯度下降 基本搜索步驟 隨機選擇一個參數初始化 根據數據和梯度算法來更新 直到走到局部一個最小區域 凸優化目標函數具有唯一最小點 凸