seq2seq框架中技術要點彙總

原創

2020-06-11 01:19

seq2seq中的attention
Copy Mechanism：解決OOV詞Copy Mechanism：解決OOV詞
來自於文章《Incorporating Copying Mechanism in Sequence-to-Sequence Learning》發表在ACL2016
Sequential Copying Networks
發表在AAAI2018年的《Sequential Copying Networks》
copy一步到位，拒絕多次copy
比較好的解析：http://dy.163.com/v2/article/detail/DE0S7IKE0511D89H.html
Scheduled Sampling
來自文章NIPS2015《Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks》
目的是爲了解決exposure bias
Self-critical sequence training
CVPR2017《Self-critical Sequence Training for Image Captioning》
http://www.zhuanzhi.ai/document/f41da7c8c2cbc05ba758f147257e0f87
seq2seq中的beam search算法
爲了減少計算複雜度，只在test階段使用，在train階段也是可以使用的爲了減少計算複雜度，只在test階段使用，在train階段也是可以使用的
比較好的解釋
https://zhuanlan.zhihu.com/p/36029811?group_id=972420376412762112
https://zhuanlan.zhihu.com/p/28048246
an intra-temporal attention function
seq2seq的一個問題就是生成重複，input中的某部分反覆參與到解碼中，應用這個技術可以減少重複
Coverage 機制
爲了解決生成連續重複的詞的問題。首先考慮把之前的 attention weight at′at′ 都加起來，得到 coverage vector
這樣做的出發點是，讓 attention 決定 tt 時刻該去關注哪一點的時候，要先知道之前已經對哪些點關注過了，就有可能解決重複關注的問題。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

caffe中增加自己的layer

假設新增加的層命名爲：NEW 1. 在src/proto的LayerParameter 的 LayerType下加 NEW= 數字； 2. 在src/layer_factory.cpp中，加 case LayerParam

2020-07-07 08:02:37

Fast RCNN ubuntu下安裝筆記

微軟研究院大神Ross Girshick新作：fase CNN，測試速度比RCNN快200倍。文章：http://arxiv.org/pdf/1504.08083v1.pdf 代碼：https://github.com/rbgirshi

2020-07-07 08:02:37

python深度學習---生成式對抗網絡（GAN）

生成式對抗網絡（GAN，generative adversarial network）由 Goodfellow 等人於 2014 年提出，它可以替代VAE來學習圖像的潛在空間。 ''' # 它能夠迫使生成圖像與真實圖像在統計上幾乎無

2020-07-06 21:30:11

深度學習設計

損失函數設計： 1、目標檢測領域：不提倡使用預測框座標與GT座標的差值進行損失函數統計，因爲座標差值會受座標尺寸大小影響，座標尺寸大的時候，差值相對大，座標尺寸小，差值相對小。改進：使用IOU，IOU不受座標尺寸因素的影響。（兩種座

2020-07-06 19:28:01

cuda error

1. 問題描述想把從圖像手工生成的特徵和經過backbone提取的特徵concatenate起來再進入網絡後面的層： x_added_coord = torch.cat([x_backbone, x_coord], 1) 報錯： Ru

2020-07-05 20:39:46

pytorch Dataloader 速度慢

1. 問題描述 Dataloader每讀完一個batch中間會間隔2s左右，很浪費時間，而且確定不是由於Dataset的__getitem__()複雜導致的。並且有一個規律，如果設置num_works=4，會出現4個batch一批很快，然

2020-07-05 20:39:35

AI在出行場景的應用實踐：路線規劃、ETA、動態事件挖掘…

前言：又到春招季！作爲國民級出行服務平臺，高德業務快速發展，大量校招/社招名額開放，歡迎大家投遞簡歷，詳情見文末。爲幫助大家更瞭解高德技術，我們策劃了 #春招專欄# 的系列文章，組織各業務團隊的高年級同學以科普+應用實踐爲主要內容爲大家

2021-03-22 21:13:28

深度學習-語音識別實戰(Python)

**點擊下載：深度學習-語音識別實戰(Python)請添加鏈接描述提取碼：46em ** 課程概述基於深度學習的語音識別實戰課程主要包括三部分內容：1.經典論文算法講解；2.算法源碼解讀；3.項目實戰；通俗講解語音識別領域當下經典

2021-02-07 21:23:40

###好好好####RL-GAN For NLP: 強化學習在生成對抗網絡文本生成中扮演的角色

目錄【導讀】本文全面系統性梳理介紹了強化學習用於發掘GAN在NLP領域的潛力，請大家閱讀。 1. 基礎：文本生成模型的標準框架 2. 問題：GAN爲何不能直接用於文本生成 2.1. GAN基礎知識 2.2. GAN面對離散型數據時的困境（

2021-01-30 11:02:45

2021最新發布：PyTorch入門到進階實戰計算機視覺與自然語言處理項目

download:PyTorch入門到進階實戰計算機視覺與自然語言處理項目 PyTorch是目前深度學習的主流框架之一，它有著成熟的生態、大量開源的源碼以及最新的模型，無論學術研究還是工程落地，PyTorch都是主流選擇。同時，PyT

2021-01-30 10:25:52

搜出來的文本：從文本生成到搜索採樣

©PaperWeekly 原創 · 作者｜蘇劍林單位｜追一科技研究方向｜NLP、神經網絡最近，筆者入了一個新坑：基於離散優化的思想做一些文本生成任務。簡單來說，就是把我們要生成文本的目標量化地寫下來，構建一個分佈，然後搜索這個分佈

2021-01-30 10:22:06

吳恩達深度學習學習筆記——C5W3——序列模型和注意力機制-1

1. 序列對序列（seq2seq）模型（編碼器、解碼器） 2. 圖像描述生成 3. 條件語言模型 4. 尋找最有可能的翻譯 5. 爲什麼不選擇貪婪搜索？局部最優不代表全局最優 6. 束搜索算法

2021-01-30 09:58:38

Performer：用隨機投影將Attention的複雜度線性化

©PaperWeekly 原創 · 作者｜蘇劍林單位｜追一科技研究方向｜NLP、神經網絡 Attention 機制的複雜度是一個老大難問題了，改變這一複雜度的思路主要有兩種：一是走稀疏化的思路，比如我們以往介紹過的 Sparse

2021-01-30 09:27:48

文本生成系列（一）seq2seq中的copy機制

本文記錄seq2seq中一種廣泛應用的方法：copy機制。 paper code Incorporating Copying Mechanism in Sequence-to-Sequence Learning 上圖左邊爲seq2seq

2021-01-30 09:25:14

法研杯參賽總結：“抽取-生成”式長文本摘要

©PaperWeekly 原創 · 作者｜蘇劍林單位｜追一科技研究方向｜NLP、神經網絡 “法研杯” [1] 算是近年來比較知名的 NLP 賽事之一，今年是第三屆，包含四個賽道，其中有一個“司法摘要”賽道引起了我們的興趣。經過了解，

2021-01-30 09:12:57

24小時熱門文章

最新文章

最新評論文章