Seq2Seq網絡框架的學習筆記

原創

2019-08-05 22:39

Seq2Seq網絡架構

Seq2Seq網絡架構模型

前期知識儲備：RNN網絡架構、LSTM網絡架構、Word2Vec模型。

Seq2Seq應用

機器翻譯（谷歌翻譯）
情感對話生成
代碼補全（目前只處於概念階段）

Seq2Seq存在的問題

壓縮損失了信息
長度限制

針對存在的問題，提出了Attention機制

“高分辨率”聚焦再圖片的某個特定區域並以“低分辨率”感知圖像的周邊區域的模式
通過大量事宴證明，將attention機制應用在機器翻譯，摘要生成，閱讀理解等問題上，取得的成效顯著。

Attention 機制（該機制能夠運用到很多地方）

關注輸入序列中某些狀態下的內容
對Encoder層狀態的加權，從而掌握輸入語句中的所有細節信息
加權效果（越黑α越低，越白α越高）

Bucket機制

正常情況要對所有句子進行補全
Bucket可以先分組，再計算

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

caffe中增加自己的layer

假設新增加的層命名爲：NEW 1. 在src/proto的LayerParameter 的 LayerType下加 NEW= 數字； 2. 在src/layer_factory.cpp中，加 case LayerParam

2020-07-07 08:02:37

Fast RCNN ubuntu下安裝筆記

微軟研究院大神Ross Girshick新作：fase CNN，測試速度比RCNN快200倍。文章：http://arxiv.org/pdf/1504.08083v1.pdf 代碼：https://github.com/rbgirshi

2020-07-07 08:02:37

python深度學習---生成式對抗網絡（GAN）

生成式對抗網絡（GAN，generative adversarial network）由 Goodfellow 等人於 2014 年提出，它可以替代VAE來學習圖像的潛在空間。 ''' # 它能夠迫使生成圖像與真實圖像在統計上幾乎無

2020-07-06 21:30:11

深度學習設計

損失函數設計： 1、目標檢測領域：不提倡使用預測框座標與GT座標的差值進行損失函數統計，因爲座標差值會受座標尺寸大小影響，座標尺寸大的時候，差值相對大，座標尺寸小，差值相對小。改進：使用IOU，IOU不受座標尺寸因素的影響。（兩種座

2020-07-06 19:28:01

[百度飛槳PaddlePaddle]Python“小白”逆襲大神--訓練營結營心得

學習背景我是一個可以說混了4年的 phper，高不成低不就的。每天寫業務邏輯，改 bug，日復一日。爲啥一個 phper 幹了那麼久現在才學 python 呢？是否不務正業什麼的？其實我在17 ~ 18年就開始接觸 pytho

2020-07-06 16:27:04

cuda error

1. 問題描述想把從圖像手工生成的特徵和經過backbone提取的特徵concatenate起來再進入網絡後面的層： x_added_coord = torch.cat([x_backbone, x_coord], 1) 報錯： Ru

2020-07-05 20:39:46

pytorch Dataloader 速度慢

1. 問題描述 Dataloader每讀完一個batch中間會間隔2s左右，很浪費時間，而且確定不是由於Dataset的__getitem__()複雜導致的。並且有一個規律，如果設置num_works=4，會出現4個batch一批很快，然

2020-07-05 20:39:35

從RCNN到Faster RCNN

R-CNN (Region-based CNN features) 性能：RCNN在VOC2007上的mAP是58%左右。簡述：R-CNN要完成目標定位，其流程主要分爲四步： 1.輸入圖像 2.利用選擇性搜索(Selectiv

2020-07-05 10:51:31

深度學習基本術語

1、關於一個事件或對象的描述，稱爲一個“示例”（instance）或“樣本”（sample），“示例”或“樣本”的集合稱爲一個“數據集”（data set）。例如，（色澤=青綠；根蒂=蜷縮；敲聲=濁響），（色澤=烏黑；根蒂=

2020-07-05 06:12:43

Deep Learning科普

首先，要由人工智能之父圖靈說起。圖靈曾經有個夢想卸載《計算機器與智能》（1950）一文中，如果有一天，計算機能夠做到，隔着牆，你根本分不清對面和你交流是一個人還是計算機，那麼這臺計算機就具有了人工智能。接下來的半個世紀裏

生命不止coding不息

2020-07-04 20:52:07

理解CNN神經網絡

首先構建好用於學習的模型，也就是各個層用什麼激活函數、輸出層的如softmax函數、各層神經元的個數、損失函數等等。然後使用訓練數據集來不斷的調整模型的參數（學習）。具體怎麼做的？首先設定一個初始參數。然後開始學習，計

2020-07-04 12:09:04

What is Back Propaganda？

反向傳播用來計算導數，但這個不是反向傳播的特性，這個導數怎麼算是要自己來寫的！把每一層的結點的導數計算公式封裝在結點內部後，再來使用反向傳播，反向傳播的特性就是：鏈式法則，或者說反向傳播是符合鏈式法則的，有了這個前提，我們纔可以

2020-07-04 12:09:04

caffe-車尾識別

caffe-車尾識別 opencv，caffe，傳統方法和深度方法結合 http://weibo.com/PVl32019.01.075t3p/2313474325750605004851/wenda_home http://weibo.

2020-07-04 11:12:41

whats is the difference between train, validation and test set, in neural networks?

The training and validation sets are used during training. for each epoch for each training data instance

2020-07-04 11:12:29

exponentially weighted averages

定義一個變量的當前值和以前所有值的加權平均公式 t=0t=0t=0時，Vt=0V_{t} = 0Vt=0 t>0t>0t>0時，Vt=βVt−1+(1−β)θtV_{t} = βV_{t-1} + (1-β)θ_{t}Vt

2020-07-04 05:20:50

24小時熱門文章

最新文章

最新評論文章