實體-關係聯合抽取:Neural Architectures for Named Entity Recognition

文章地址:https://arxiv.org/pdf/1603.01360.pdf

文章標題:Neural Architectures for Named Entity Recognition(命名實體識別的神經結構)NNACL2016

代碼地址:

  • 1、LSTM-CRF:https://github.com/glample/tagger
  • 2、Stack-LSTM:https://github.com/clab/stack-lstm-ner

Abstract

最先進的命名實體識別系統嚴重依賴手工製作的功能和領域特定的知識,以便有效地學習小型的、監督訓練語料庫。在這篇文章中,我們介紹了兩種新的神經結構——一種基於雙向LSTMs和條件隨機域另一種基於移位-減少解析器的基於轉換的方法來構造和標記片段我們的模型依賴於兩個關於單詞的信息來源:從監督語料庫學習的基於字符的單詞表示和從無註釋語料庫學習的非監督單詞表示。我們的模型在四種語言的NER中獲得了最先進的性能,而無需藉助於任何特定於語言的知識或資源,如地名辭典。

一、Introduction

命名實體識別是一個具有挑戰性的學習問題。一方面,在大多數語言和領域,只有非常少的監督訓練數據可用。另一方面,對於可以作爲名稱的單詞的種類幾乎沒有限制,因此從這個小的數據樣本中進行歸納是困難的。因此,精心構建的正字法特徵和特定語言的知識資源,如地名辭典,被廣泛用於解決這一任務。不幸的是,在新語言和新領域中開發語言特定的資源和特性的成本很高,這使得NER很難適應。從無註釋的語料庫中進行無監督學習爲從少量監督中獲得更好的泛化提供了另一種策略。然而,即使是廣泛依賴於無監督特性的系統(Collobert等人,2011;Turian等人,2010;林和吳,2009;Ando和Zhang, 2005b,除其他外)已經使用這些來補充,而不是取代手工設計的功能(例如,關於特定語言中的大寫模式和字符類的知識)和專門的知識資源(例如,地名詞典)。

在這篇論文中,我們提出了一種神經網絡架構,它不需要使用特定語言的資源或特性,只需要少量的監督訓練數據和未標記的語料庫。我們的模型旨在捕捉兩種直覺。首先,由於名稱通常由多個標記組成,因此對每個標記的標記決策進行聯合推理非常重要。我們在這裏比較兩個模型,(i)一個雙向的LSTM與它上面的一個順序條件隨機層 (LSTM-CRF) 和(ii)一個新的模型,該模型使用基於轉換的解析算法構造和標記輸入語句塊,狀態由堆棧LSTMs (S-LSTM) 。第二,“成爲一個名字”的標記級證據包括正字法證據(被標記爲名字的單詞長什麼樣?)和分佈證據(被標記的單詞在語料庫中的位置?)爲了捕獲正字法敏感性,我們使用基於字符的單詞表示模型(Ling等,2015b)來捕獲分佈敏感性,我們將這些表示與分佈表示相結合(Mikolov等,2013b)。我們的單詞表示將這兩種方法結合起來,並使用隨機失活訓練來鼓勵模型學會信任兩種證據來源。

在英語、荷蘭語、德語和西班牙語中進行的實驗表明,我們能夠使用荷蘭語、德語和西班牙語的LSTM-CRF模型獲得最先進的NER性能,並且非常接近最先進的英語,不需要任何手工設計的功能或地名錶。基於轉換的算法也同樣超越了之前以幾種語言發佈的最佳結果,儘管它的性能不如LSTM-CRF模型。

二、LSTM-CRF Model

我們提供了LSTMs和CRFs的簡要描述,並提出了一個混合的標記體系結構。這種架構與Collobert等人(2011)和Huang等人(2015)提出的架構類似。

2.1 LSTM

遞歸神經網絡是一類對序列數據進行處理的神經網絡。它們取一個向量序列(x1,x2,…,xn)作爲輸入,並返回另一個序列(h1,h2,…,hn),表示在輸入的每一步中該序列的一些信息。雖然在理論上,RNNs可以學習長依賴關係,但在實踐中,他們不能做到這一點,往往會偏向於他們在序列中最近的輸入(Bengio et al., 1994)。長期短期記憶網絡(LSTMs)被設計成通過合併一個記憶單元來解決這個問題,並被證明能夠捕獲長期依賴。他們使用幾個門來控制輸入給記憶單元的比例,以及從先前狀態到遺忘的比例(Hochreiter和Schmidhuber, 1997)。我們使用以下實現:
在這裏插入圖片描述
其中,δ表示元素的sigmoid函數,⊙表示元素的產出。

對於一個包含n個單詞的給定句子(x1,x2,…,xn),每個單詞都用d維向量表示,LSTM在每個單詞t處計算句子左上下文的表示ht。自然,生成右上下文ht的表示也應該添加有用的信息。這可以使用第二個LSTM來實現,它以相反的方式讀取相同的序列。我們將前者稱爲前向LSTM,後者稱爲後向LSTM。這是兩個具有不同參數的不同網絡。這種前向和後向LSTM對稱爲雙向LSTM (Graves和Schmidhuber, 2005)。

使用該模型的單詞表示是通過連接其左右上下文表示ht=[ht→;←ht]來獲得的。這些表示有效地包括上下文中單詞的表示,這對於許多標記應用程序非常有用。

2.2 CRF Tagging Models

一個非常簡單但卻非常有效的標記模型是使用ht作爲特性,爲每個輸出yt做出獨立的標記決策(Ling et al., 2015b)。儘管該模型在簡單的問題(如POS標記)上取得了成功,但是當輸出標籤之間有很強的依賴性時,它的獨立分類決策就會受到限制。NER就是這樣一個任務,因爲描述可解釋的標記序列的“語法”施加了幾個硬約束(例如,I-PER不能遵循B-LOC)這是不可能用獨立假設來建模的。

因此,我們不是獨立地對標記決策進行建模,而是聯合使用條件隨機字段對它們進行建模(Lafferty et al., 2001)。對於輸入句:
在這裏插入圖片描述
我們認爲P是雙向LSTM網絡輸出的分數矩陣。P的大小是n*k,k不同標籤的數量,並且Pij表示一個句子中第i個單詞的第j個標記的得分。對於一系列的預測:
在這裏插入圖片描述
我們定義它的分數爲:
在這裏插入圖片描述
其中A是一個轉換分數矩陣,Aij表示從標籤i到標籤j的轉換分數。y0和yn是一個句子的開始和結束標籤,我們將它們添加到可能的標籤集合中。因此Ais是一個大小爲k+2的方陣。

所有可能的標籤序列上的softmax產生一個序列y的概率:
在這裏插入圖片描述
在訓練過程中,我們最大化了正確標籤序列的對數概率:
在這裏插入圖片描述
其中YX表示一個句子x的所有可能的標記序列(即使是那些沒有驗證IOB格式的序列)。從上面的公式可以明顯看出,我們鼓勵我們的網絡生成一個有效的輸出標記序列。在解碼時,我們預測得到最大分值的輸出序列爲:
在這裏插入圖片描述
由於我們只是對輸出之間的雙圖交互進行建模,因此兩個輸出都是公式1中的總和,並且最大後驗序列y在公式2中可以使用動態規劃計算。

2.3 Parameterization and Training

在這裏插入圖片描述
圖一:網絡的主要架構。詞嵌入被給予一個雙向LSTM。li表示單詞i及其左上下文,ri表示單詞i及其右上下文。將這兩個向量連接起來,就得到了單詞i在其上下文中的表示形式ci

與每個標記的每個標記決策相關的分數(即,Piy’s)被定義爲一個詞的嵌入(使用雙向lstm計算上下文)與Ling等人(2015b)的詞性標註模型完全相同的點積,這些點積與雙字母的兼容性評分(即,Ay,y’s)。此體系結構如圖1所示。圓表示觀察到的變量,方塊是它們的雙親的確定性函數,雙圓是隨機變量

因此,該模型的參數爲二元圖相容性評分A的矩陣,以及產生矩陣P的參數,即雙向LSTM的參數、線性特徵權值和詞嵌入。如第2.2部分所示,設xi表示一個句子中每個單詞的詞嵌入順序,yi表示它們的關聯標記。我們將在第4節中討論如何對嵌入xi進行建模。單詞嵌入序列作爲雙向LSTM的輸入,它返回每個單詞的左右上下文的表示,如2.1中所述。

這些表示被連接起來(ci)併線性投影到一個層上,該層的大小等於不同標記的數量。我們沒有使用這一層的softmax輸出,而是使用前面描述的CRF來考慮相鄰標記,從而生成每個單詞yi的最終預測。另外,我們觀察到在ci和CRF層之間添加一個隱含層會略微改善我們的結果。這個模型的所有結果都包含了這個額外的層。這些參數經過訓練,在給定觀察到的單詞的情況下,最大限度地提高一個標註語料庫中NER標記的觀察序列的公式1。

2.4 Tagging Schemes(標籤計劃)

命名實體識別的任務是爲句子中的每個單詞分配一個命名實體標籤單個命名實體可以在一個句子中跨越多個標記。句子通常以IOB格式表示(內部、外部、開頭),其中每個標記都標記爲B-label(如果標記是指定實體的開頭),I-label(如果標記在指定實體中,但不是指定實體中的第一個標記),否則標記爲O。然而,我們決定使用IOBES標籤計劃,約伯的變種常用的命名實體識別,編碼單信息實體(S)和明確的結束標誌着命名實體(E)。使用這種方案,標記一個單詞是我標榜高信任度縮小了隨後的詞我標榜的選擇或E-label,然而,約伯的計劃僅僅是能夠確定後續的詞不能內部的另一個標籤。Ratinov和Roth(2009)以及Dai等人(2015)表明,使用更有表現力的標籤方案,如IOBES,可以略微提高模型性能。然而,我們沒有觀察到IOB標記方案的顯著改進。

三、Transition-Based Chunking Model(躍遷過程分塊模型)

作爲上一節討論的LSTM-CRF的替代方案,我們將探索一種新的體系結構,它使用類似於基於轉換的依賴項解析的算法對輸入序列進行塊處理和標記。這個模型直接構造了多標記名稱的表示(例如,Mark Watney這個名稱被組合成一個單一的表示)。

此模型依賴於堆棧數據結構以增量方式構造輸入塊。爲了獲得這個用於預測後續操作的堆棧的表示,我們使用了Dyer等人(2015)提出的堆棧-LSTM,其中LSTM被一個“堆棧指針”擴充。雖然按順序的LSTMs從左到右建模序列,但堆棧LSTMs允許嵌入一組對象,這些對象既可以添加(使用push操作),也可以刪除(使用pop操作)。這使得Stack-Lstm可以像一個棧一樣工作,維護其內容的“摘要嵌入”。爲了簡單起見,我們將這個模型稱爲Stack-LSTM或S-LSTM模型

最後,我們建議有興趣的讀者參考原始的論文(Dyer et al., 2015),以獲得關於堆棧LSTM模型的詳細信息,因爲在本文中,我們只是通過在下一節中介紹的基於轉換的新算法來使用相同的體系結構。

3.1 Chunking Algorithm(分塊算法)

在這裏插入圖片描述
圖二:Stack-LSTM模型的轉換,指示應用的操作和結果狀態。粗體符號表示詞與關係的嵌入,文字符號表示相應的詞與關係。

我們設計了一個轉換清單,如圖2所示,它受到基於轉換的解析器的啓發,特別是Nivre(2004)的arc標準解析器。在這個算法中,我們使用了兩個堆棧(分別表示已完成的塊和空白的指定輸出和堆棧)和一個包含尚未處理的單詞的緩衝區。過渡庫存包含以下轉變:轉變過渡移動堆棧緩衝區的一句話,直接從緩衝過渡動作一個詞到輸出棧而減少(y)過渡彈出所有項目從堆棧的頂部創建一個“塊”,標籤與標籤y,並把這一塊的表示到輸出棧。當堆棧和緩衝區都爲空時,算法完成。該算法如圖2所示,它顯示了處理Mark Watney visit Mars這句話所需的操作順序。

通過定義每個時間步上操作的概率分佈(給定堆棧、緩衝區和輸出的當前內容以及所採取的操作的歷史),將模型參數化。在Dyer等人(2015)之後,我們使用堆棧LSTMs來計算每個這些的固定維嵌入,並將它們串聯起來以獲得完整的算法狀態。此表示形式用於定義在每個時間步驟中可能採取的操作的分佈。在給定輸入語句的情況下,對模型進行訓練以最大化參考動作序列的條件概率(從標記的訓練語料庫中提取)。爲了在測試時標記一個新的輸入序列,我們貪婪地選擇最大概率動作,直到算法達到終止狀態。雖然這不能保證找到全局最優,但在實踐中是有效的。由於每個標記要麼直接移動到輸出(1個操作),要麼先移動到堆棧,然後再移動到輸出(2個操作),因此長度爲n的序列的操作總數最多爲2n。

值得注意的是,這個算法模型的性質使得它與所使用的標記方案無關,因爲它直接預測被標記的塊

3.2 Representing Labeled Chunks(代表標記塊)

在執行REDUCE(y)操作時,算法將一系列標記(連同它們的向量嵌入)作爲單個已完成的塊從堆棧轉移到輸出緩衝區。爲了計算這個序列的嵌入,我們在其組成標記的嵌入上運行一個雙向LSTM,並使用一個表示要標識的塊的類型的標記(即該函數表示爲g(u,…,v,ry),其中ry是一個標籤類型的學習嵌入。因此,輸出緩衝區包含生成的每個標記塊的單個向量表示,而不考慮其長度。

四、InputWord Embeddings

我們的兩個模型的輸入層都是單個單詞的向量表示。從有限的NER訓練數據中學習單詞類型的獨立表示是一個困難的問題:有太多的參數需要可靠地估計。由於許多語言都有正字法或形態學證據表明某物是名稱(或不是名稱),所以我們需要對單詞拼寫敏感的表示。因此,我們使用了一個模型,該模型通過組成單詞的字符表示來構造單詞的表示(4.1)。我們的第二直覺是,名字,可能個別地是相當不同的,在大語料庫的規則的上下文出現。因此,我們使用從對詞序敏感的大型語料庫中獲得的嵌入(4.2)。最後,爲了防止模型過於依賴於一種表現形式或另一種表現形式,我們使用了dropout訓練,並發現這對良好的泛化性能至關重要(4.3)。

4.1 Character-based models of words

在這裏插入圖片描述
圖四:將“Mars”這個詞的字符嵌入到一個雙向LSTMs中。我們將它們的最後輸出連接到查找表的嵌入中,以獲得該單詞的表示形式。

我們的工作與以前大多數方法的一個重要區別是,我們在訓練中學習字符級特徵,而不是手工設計單詞的前綴和後綴信息。學習字符級嵌入具有學習特定於當前任務和領域的表示形式的優勢。它們已被發現對於形態豐富的語言和處理詞性標記和語言建模(Ling等,2015b)或依賴解析(Ballesteros等,2015)等任務的外露詞彙問題非常有用。

圖4描述了我們的體系結構,它根據單詞的字符爲單詞生成嵌入詞。 。在測試期間,在查找表中沒有嵌入的單詞被映射到灌入嵌入。爲了訓練灌籃嵌入,我們用概率爲0:5的灌籃嵌入替換單例。在我們所有的實驗中,前向和後向字符LSTMs的隱藏維數各爲25,這使得我們基於字符的單詞表示具有50維。

像RNNs和LSTMs這樣的遞歸模型能夠對很長的序列進行編碼,但是它們的表現形式偏向於它們最近的輸入。因此,我們期望前向LSTM的最終表示是單詞後綴的準確表示,後向LSTM的最終狀態是其前綴的更好表示。替代的方法——最顯著的是像卷積網絡——已經被提出用來從字符中學習單詞的表示(Zhang et al., 2015;Kim等人,2015)。然而,convnets旨在發現其輸入的位置不變特性。雖然這是適合很多問題,例如,圖像識別(一隻貓可以出現在任何圖片),我們認爲是位置相關的重要信息(例如,前綴和後綴不同的信息編碼比莖),使得建模LSTMs一個先驗更好的函數類單詞和他們的角色之間的關係。

4.2 Pretrained embeddings

如Collobert等人(2011)所述,我們使用預先訓練好的詞嵌入來初始化查找表。我們觀察到,與隨機初始化的詞相比,使用預先訓練的詞嵌入有顯著的改進。嵌入件使用skip-n-gram (Ling等,2015a)進行預訓練,這是word2vec (Mikolov等,2013a)的一個變體,用於解釋詞序。這些嵌入在培訓期間進行了微調。

針對西班牙語、荷蘭語、德語和英語的Word embeddings培訓分別使用西班牙語Gigaword版本3、萊比錫語料庫集、來自2010年機器翻譯研討會的德語單語培訓數據和英語Gigaword版本4(去掉了《洛杉磯時報》和《紐約時報》的部分內容)。我們爲英語使用100的嵌入維數,爲其他語言使用64的嵌入維數,最小詞頻截止爲4,窗口大小爲8。

4.3 Dropout training

最初的實驗表明,字符級嵌入與預先訓練的單詞表示一起使用時,並不能提高我們的整體性能。爲了鼓勵模型依賴於這兩種表示,我們使用了dropout訓練(Hinton et al., 2012),在圖1中的雙向LSTM輸入之前,將dropout掩碼應用到最後的嵌入層。使用dropout後,我們發現我們的模型性能有了顯著的改善(見表5)。

五、Experiments

本節介紹了我們用來訓練模型的方法,我們在各種任務中獲得的結果,以及我們的網絡配置對模型性能的影響。

5.1 Training

對於提出的兩個模型,我們使用反向傳播算法來訓練我們的網絡,每次更新一個訓練實例的參數,使用學習率爲0:01、梯度裁剪爲5:0的隨機梯度下降(SGD)。提出了幾種提高SGD性能的方法,如Adadelta (Zeiler, 2012)或Adam (Kingma和Ba, 2014)。雖然我們觀察到使用這些方法可以更快地收斂,但是它們都沒有使用梯度裁剪的SGD表現得好。

我們的LSTM-CRF模型爲正向和反向lstm使用一個單層,其維度設置爲100。調優這個維度不會顯著影響模型性能。我們把隨機失活率設爲0:5。使用較高的心率會對我們的結果產生負面影響,而較低的心率會導致較長的訓練時間。

Stak-Lstm模型爲每個堆棧使用兩個各爲100維的層。複合函數中使用的動作的嵌入各有16個維度,輸出嵌入的維度爲20。我們嘗試了不同的輟學率,並使用每種語言的最佳輟學率來報告分數。這是一個貪心模型,它應用局部最優的動作,直到整個句子被處理,進一步的改進可能通過beam search (Zhang and Clark, 2011)或training with exploration (Ballesteros et al., 2016)獲得。

5.2 Data Sets

我們在不同的數據集上測試我們的模型,以進行命名實體識別。爲了證明我們的模型泛化到不同語言的能力,我們展示了在CoNLL-2002和CoNLL-2003數據集上的結果(Tjong Kim Sang, 2002;Tjong Kim Sang和De Meulder, 2003),其中包含英語、西班牙語、德語和荷蘭語的獨立命名實體標籤。所有數據集包含四種不同類型的命名實體:位置、人員、組織和其他不屬於前三種類型的實體。雖然POS標籤對所有數據集都是可用的,但是我們沒有在我們的模型中包含它們。我們沒有執行任何數據集預處理,除了用英文NER數據集中的0替換每個數字。

5.3 Results

在這裏插入圖片描述
表一:英語水平測試結果(CoNLL-2003測試集)。*表示使用外部標記數據訓練的模型

表1展示了我們與其他英語命名實體識別模型的比較。爲了使我們的模型和其他模型之間的比較公平,我們報告了其他模型的得分,這些模型使用和不使用外部標記數據,如地名錶和知識庫。我們的模型不使用地名錶或任何外部標記的資源。在這項任務中,羅等人(2015)的得分最高。他們通過聯合建模NER和實體連接任務獲得了91.2的F1 (Hoffart et al., 2011)。他們的模型使用了很多手工設計的功能,包括拼寫功能、WordNet集羣、Brown集羣、POS標籤、chunk標籤,以及詞幹提取和外部知識庫(如Freebase和Wikipedia)。我們的LSTM-CRF模型優於所有其他系統,包括使用外部標記數據(如地名錶)的系統。除了Chiu和Nichols(2015)提出的模型外,我們的Stack-LSTM模型也優於所有不包含外部特徵的先前模型。
在這裏插入圖片描述
表二:德國NER結果(CoNLL-2003測試集)。*表示使用外部標記數據訓練的模型
在這裏插入圖片描述
表三:荷蘭NER (CoNLL-2002測試集)。*表示使用外部標記數據訓練的模型
在這裏插入圖片描述
表四:西班牙語NER (CoNLL-2002測試集)。*表示使用外部標記數據訓練的模型

表2、3和4分別展示了我們對德語、荷蘭語和西班牙語的NER與其他模型的比較結果。在這三種語言中,LSTM-CRF模型的性能顯著優於所有以前的方法,包括使用外部標記數據的方法。唯一的例外是荷蘭,Gillick等人(2015)的模型可以更好地利用來自其他NER數據集的信息。與不使用外部數據的系統相比,Stack-LSTM還始終如一地顯示最優(或接近)結果。

從表中可以看出,Stack-LSTM模型更依賴於基於字符的表示來實現競爭性能;我們假設LSTM-CRF模型需要較少的正投影信息,因爲它能從雙向Lstm中獲得更多的上下文信息;但是,Stack-LSTM模型逐個消耗單詞,並且在分解單詞時僅依賴單詞表示。

5.4 Network architectures

在這裏插入圖片描述
表五:使用不同的配置,用我們的模型得到結果。“預訓練”指的是包含預訓練詞嵌入的模型,“char”指的是包含基於字符的單詞建模的模型,“dropout”指的是包含dropout率的模型。

我們的模型有幾個組件,我們可以調整它們來了解它們對整體性能的影響。我們探討了CRF、字符級表示、詞嵌入和刪除的預訓練對LSTMCRF模型的影響。我們觀察到,預習我們的詞嵌入給我們在F1 +7:31的整體表現帶來了最大的改善。CRF層增加了+1:79,使用dropout增加了+1:17,最後學習character-level word embeddings增加了約+0:74。對於Stack-LSTM,我們進行了類似的一組實驗。不同架構的結果如表5所示。

六、Related Work

在CoNLL-2002的共享任務中,Carreras等人(2002)通過合併幾個固定深度的小型決策樹,在荷蘭語和西班牙語上獲得了最好的結果。第二年,在CoNLL- 2003的共享任務中,Florian et al.(2003)通過綜合四種不同分類器的輸出,獲得了德語的最好成績。Qi等人(2009)後來通過在大量未標記的語料庫上進行無監督學習,用神經網絡改進了這一點。

先前已經爲NER提出了幾個其他的神經結構。例如,Collobert et al.(2011)在一系列嵌入詞上使用CNN,並在頂部使用CRF層。這可以被認爲是我們的第一個沒有字符級嵌入的模型,雙向LSTM被一個CNN所取代。最近,Huang等人(2015)提出了一個類似於我們的LSTM-CRF的模型,但是使用了手工拼寫功能。Zhou和Xu(2015)也使用了類似的模型,並將其應用於語義角色標記任務。Lin和Wu(2009)使用了帶有L2正則化的線性鏈CRF,他們添加了從web數據中提取的短語簇特徵和拼寫特徵。Passos等人(2014)也使用了帶有拼寫特徵和地名錶的線性鏈CRF。

像我們這樣的語言無關的NER模型在過去也被提出過。Cucerzan和Yarowsky (1999;2002)提出了一種用於命名實體識別的半監督自舉算法,該算法通過共同訓練字符級(內部詞)和標記級(上下文)特徵來實現。Eisenstein et al.(2011)使用貝葉斯非參數化方法在幾乎無監督的情況下建立了一個命名實體的數據庫。Ratinov和Roth(2009)定量比較了幾種NER方法,並使用正則化的平均感知器和聚合上下文信息構建了自己的監督模型。

最後,目前人們對使用基於字母的表示的NER模型很感興趣。Gillick等人(2015)將測序任務建模爲一個從序列到序列的學習問題,並將基於字符的表示納入他們的編碼器模型。 Chiu and Nichols (2015)使用一個架構類似於我們的,而是運用cnn學習字符級特性,在某種程度上類似於 Santos and Guimar˜aes (2015)。

七、Conclusion

本文提出了兩種用於序列標記的神經結構,即使與使用外部資源(如地名詞典)的模型相比,它們也能提供在標準評估環境中所報告的最佳NER結果。

我們的模型的一個關鍵方面是,它們對輸出標籤依賴關係建模,要麼通過簡單的CRF架構,要麼使用基於轉換的算法顯式地構造和標記輸入塊。單詞表示對於成功也至關重要:我們既使用預先訓練的單詞表示,也使用“基於字符的”表示,以捕獲形態和正字法信息。爲了防止學習者過於依賴一個表示類,使用了dropout。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章