deepspeech 1 (百度 2014 論文解讀)

論文:https://arxiv.org/pdf/1412.5567.pdf
題目:Deep Speech: Scaling up end-to-end speech recognition

摘要

我們提出了使用端到端深度學習開發的最先進的語音識別系統。我們的體系結構比傳統的語音系統要簡單得多,傳統的語音系統依靠費力地設計的處理管道。當在嘈雜的環境中使用時,這些傳統系統的性能也往往很差。相反,我們的系統不需要手動設計的組件即可對背景噪聲,混響或揚聲器變化進行建模,而可以直接學習對此類效果具有魯棒性的功能。我們不需要音素字典,甚至不需要“音素”的概念。我們方法的關鍵是使用多個GPU的經過優化的RNN訓練系統,以及使我們能夠高效地使用的一組新穎的數據合成技術。獲得大量用於訓練的各種數據。我們的系統稱爲“深層語音(Deep Speech)”,其性能優於先前在廣泛研究的Switchboard Hub5’00上發佈的結果,在整個測試集上實現了16.0%的誤差。與廣泛使用的最新商業語音系統相比,深度語音還可以更好地處理充滿挑戰的嘈雜環境。

1 介紹

頂級語音識別系統依賴於複雜的流水線,該流水線由多種算法和手工設計的處理階段組成。 在本文中,我們描述了一種稱爲“深度語音”的端到端語音系統,其中深度學習取代了這些處理階段。 結合語言模型,該方法在硬語音識別任務上比傳統方法具有更高的性能,同時也更加簡單。 通過使用多個GPU和數千小時的數據訓練大型遞歸神經網絡(RNN),可以使這些結果成爲可能。 因爲此係統直接從數據中學習,所以我們不需要用於揚聲器調整或噪聲過濾的專用組件。 實際上,在對揚聲器變化和噪聲的魯棒性至關重要的環境中,我們的系統表現出色:“深層語音”的性能優於以前在Switchboard Hub5’00語料庫上發佈的方法,實現了16.0%的錯誤率,並且在嘈雜的語音識別測試中比商業系統表現更好。
傳統語音系統使用許多精心設計的處理階段,包括專門的輸入功能,聲學模型和隱馬爾可夫模型(HMM)。爲了改善這些渠道,領域專家必須投入大量精力來調整其功能和模型。深度學習算法[27、30、15、18、9]的引入通常通過改進聲學模型來提高語音系統的性能。儘管這一進步已經很顯着,但深度學習在傳統語音管道中仍然只發揮有限的作用。結果,爲了提高諸如在嘈雜的環境中識別語音之類的任務的性能,必須爲增強魯棒性而費力地設計系統的其餘部分。相反,我們的系統使用遞歸神經網絡端到端地應用深度學習。我們利用深度學習系統提供的能力來從大型數據集中學習,以改善整體性能。我們的模型經過端到端訓練以產生轉錄,因此,有了足夠的數據和計算能力,我們可以自行學習對噪聲或說話人變化的魯棒性。
我們選擇RNN模型是爲了更好地映射到GPU,我們使用了一種新穎的模型分區方案來改善並行化。 此外,我們提出了一種組裝大量標記語音數據的過程,該數據表現出我們系統應學習處理的失真。 通過收集和綜合數據的組合,我們的系統學習了對現實噪聲和說話人變化的魯棒性(包括倫巴第效應[20])。 綜上所述,這些想法足以構建一個端到端語音系統,該系統比傳統管道簡單得多,但在困難的語音任務上也能表現更好。 在完整的Switchboard Hub5’00測試集中,Deep Speech的錯誤率達到16.0%,這是發佈效果最好的結果。 此外,在我們自己構造的新的嘈雜語音識別數據集上,我們的系統實現了19.1%的單詞錯誤率,而最好的商業系統實現了30.5%的錯誤率。
在本文的其餘部分,我們將介紹語音識別系統背後的關鍵思想。 我們首先描述在第2節中使用的基本遞歸神經網絡模型和訓練框架,然後討論GPU優化(第3節)以及我們的數據捕獲和綜合策略(第4節)。 我們的實驗結果表明了“深度語音”的最新性能(第5節),然後討論了相關工作和我們的結論。

2 RNN的訓練設置

我們系統的核心是經過訓練的循環神經網絡(RNN),以攝取語音頻譜圖並生成英語文本轉錄。 假設從訓練集中X = {(x(1),y(1)),(x(2),y(2))},訓練單個樣本x和標籤y 。 每個發聲x(i)是長度T(i)的時間序列,其中每個時間片都是音頻特徵的向量x(i)t,t = 1… ,T(i)。 我們使用頻譜圖作爲我們的特徵,因此x(i)t,p表示在時間t音頻幀中第p個頻點的功率。 RNN的目標是將輸入序列x轉換爲轉錄y的字符概率序列,其中yˆt = P(ct | x),其中ct∈{a,b,c,… ,z,空格,撇號,空白}。
我們的RNN模型由5層隱藏單元組成。 對於輸入x,第l層的隱藏單元表示爲h(l),約定輸入爲h(0)。 前三層不是經常性的。 對於第一層,在每個時間t處,輸出取決於頻譜圖幀xt以及每側C幀的上下文。其餘非遞歸層在每個時間步均對獨立數據進行操作。 因此,對於每個時間t,通過以下公式計算前3層:
h (l) t = g(W(l)h (l−1) t + b (l) )
其中g(z)= min {max {0,z},20}是限幅整流線性(ReLu)激活函數,而W(l),b(l)是層1的權重矩陣和偏置參數。 第四層是雙向循環層。 該層包括兩組隱藏單元:一組具有正向遞歸h(f)和一組具有反向遞歸h(b):
在這裏插入圖片描述
請注意,對於第i個發聲,h(f)必須從t = 1到t = T(i)依次計算,而單位h(b)必須從t = T(i)到t反向順序計算 = 1。
第五層(非遞歸)將正向和反向單元都作爲輸入h(5)t = g(W(5)h(4)t + b(5))其中h(4)t = h(f )t + h(b)t。 輸出層是一個標準的softmax函數,該函數產生每個時間片t和字母k中的字符k的預測字符概率:
在這裏插入圖片描述
一旦我們計算了P(ct | x)的預測,就可以計算出CTC損失 L(ˆy,y)來測量預測中的誤差。 在訓練過程中,我們可以根據給定的地面字符序列y評估相對於網絡輸出的梯度∇yˆL(ˆy,y)。 從這一點出發,可以通過網絡的其餘部分的反向傳播來完成關於所有模型參數的梯度計算。 我們使用Nesterov的“加速梯度”方法進行訓練
在這裏插入圖片描述
完整的RNN模型如圖1所示。請注意,它的結構比文獻[14]中的相關模型要簡單得多-我們將自己的限制在單個循環層(這是最難並行化的),因此我們不使用(LSTM)電路。 LSTM細胞的一個缺點是它們需要在每個步驟中計算和存儲多個門控神經元響應。 由於前向和後向遞歸是順序重複的,因此這種小的附加成本可能會成爲計算瓶頸。 通過使用齊次模型,我們使循環激活的計算儘可能高效:計算ReLu輸出僅涉及GPU上的一些高度優化的BLAS操作和單點非線性
我們使用0.99的動量,並在每次經過數據之後,以恆定因子對學習率進行退火,選擇該因子以產生最快的收斂速度。

2.1 正則化

儘管我們花了很多時間來擴展數據集(請參閱第4節),但我們使用的循環網絡仍然擅長擬合訓練數據。 爲了進一步減少方差,我們使用了幾種技術。
在訓練期間,我們採用5%-10%的dropout率[19]。 我們在前饋層中應用dropout,但不適用於週期性的隱藏激活。
在網絡評估期間,計算機視覺中最常用的技術是通過轉換或反射來隨機抖動輸入,通過網絡提供每個抖動版本,並對結果進行投票或平均[23]。 這種抖動在ASR中並不常見,但是我們發現將原始音頻文件向左和向右平移5ms(濾波器組步長的一半),然後向前傳播重新計算的特徵對平均輸出概率是有益的。 在測試時,我們還使用多個RNN的集合,以相同的方式平均它們的輸出。

2.2 語言模型

當從大量帶標籤的語音數據中訓練出來時,RNN模型可以學習產生可讀的字符級轉錄。實際上,對於許多轉錄而言,RNN預測的最可能的字符序列在沒有外部語言限制的情況下是完全正確的。在這種情況下,RNN所犯的錯誤往往是英語單詞在語音上的合理表現—表1顯示了一些示例。許多錯誤發生在很少或從未出現在我們的訓練集中的單詞上。在實踐中,這很難避免:從足夠的語音數據中進行訓練以聽取我們可能需要知道的所有單詞或語言結構是不切實際的。因此,我們將系統與N-gram語言模型集成在一起,因爲可以輕鬆地從龐大的未標記文本語料庫中訓練這些模型。爲了進行比較,雖然我們的語音數據集通常包含多達300萬個語音,但第5.2節中用於實驗的N元語法模型是從2.2億個短語的語料庫中訓練出來的,支持495,000個單詞的詞彙量.
在這裏插入圖片描述
表1:直接從RNN(左)進行轉錄的示例,其錯誤已通過添加語言模型而得以修復(右)。
給定RNN的輸出P(c | x),我們執行搜索以查找字符c1,c2,…的序列。根據RNN輸出和語言模型(其中語言模型將字符串解釋爲單詞)而言,這種可能性最高。 具體來說,我們的目標是找到使組合目標最大化的序列c:
Q© = log(P(c|x)) + α log(Plm©) + β word count©
其中α和β是可調參數(通過交叉驗證設置),這些參數控制RNN,語言模型約束和句子長度之間的折衷。 術語Plm表示根據N元語法模型的序列c的概率。 我們使用高度優化的波束搜索算法(典型的波束大小在1000-8000範圍內)來最大化此目標,這與Hannun等人描述的方法類似。

3 優化器

如上所述,我們已經做出了一些設計決策,以使我們的網絡適合高速執行(並因此進行快速培訓)。 例如,我們選擇了易於實施且僅依賴於幾個高度優化的BLAS調用的齊次整流線性網絡。 全面展開後,我們的網絡將包含近50億個典型發音的連接,因此有效的計算對於使我們的實驗可行至關重要。 我們使用多GPU訓練[7,23]來加速我們的實驗,但是如我們所解釋的那樣,有效地做到這一點需要一些額外的工作。

3.1數據並行

爲了有效地處理數據,我們使用兩個級別的數據並行性。首先,每個GPU並行處理許多示例。這是通過將許多示例串聯到單個矩陣中來完成的。例如,與其在遞歸層中執行單個矩陣矢量乘法Wrht,不如通過計算WrHt並行執行許多操作,其中Ht = [h(i)t,h(i + 1)t,…。 。 。](其中h(i)t對應於時間t的第i個示例x(i))。當Ht相對較寬時(例如1000個示例或更多),GPU效率最高,因此我們希望在一個GPU上處理儘可能多的示例(不超過GPU內存的限制)。
當我們希望使用比單個GPU本身無法支持的更大的微型批處理時,我們使用跨多個GPU的數據並行性,每個GPU處理一個單獨的微型示例示例,然後在每次迭代期間將其計算出的梯度與其對等體合併。我們通常跨GPU使用2倍或4倍數據並行性。
但是,當發聲長度不同時,由於不能將它們組合爲單個矩陣乘法,因此數據並行性很難實現。我們通過按長度對訓練示例進行排序並將僅大小相似的發聲組合到小批中來解決此問題,必要時使用填充進行靜音,以便批次中的所有發聲都具有相同的長度。該解決方案的靈感來自於ITPACK / ELLPACK稀疏矩陣格式[21]。 Sutskever等人使用了類似的解決方案。 [42]加速文本的RNN。

3.2 模型並行

數據並行性可將訓練速度提高到小批量大小的適度倍數(例如2到4),但是由於將更多示例分配到單個梯度更新中無法提高訓練收斂速度,因此面臨收益遞減的問題。也就是說,在2倍數量的GPU上處理2倍數量的示例無法在訓練中產生2倍的加速。固定總的最小批處理大小效率不高,但將示例擴展到2倍的GPU:隨着每個GPU內的最小批處理縮小,大多數操作都會受到內存帶寬的限制。爲了進一步擴展,我們通過劃分模型進行並行化(“模型並行性” [7,10])。
由於遞歸層的順序性質,我們的模型很難並行化。由於雙向層由獨立的前向計算和後向計算組成,因此我們可以並行執行兩個計算。不幸的是,天真地將RNN拆分爲將h(f)和h(b)放在單獨的GPU上,這使我們在進行h(5)計算時要進行大量數據傳輸(這取決於h(f)和h(b)) 。因此,我們選擇了一種不同的工作分區方式,該方式需要較少的模型交流:將模型沿時間維度分爲兩半。
除循環層外的所有層都可以沿時間維度進行分解,其中時間序列的前半部分(從t = 1到t = T(i)/ 2)分配給一個GPU,後半部分分配給另一個GPU 。在計算遞歸層激活時,第一個GPU開始計算正向激活h(f),第二個GPU開始計算向後激活h(b)。在中點(t = T(i)/ 2),兩個GPU交換中間激活h(f)T / 2和h(b)T / 2以及交換角色。然後,第一GPU完成h(b)的後向計算,第二GPU完成h(f)的前向計算。

3.3 Striding

我們已經盡力減少RNN循環層的運行時間,因爲它們很難並行化。 作爲最終的優化,我們通過在原始輸入中採用大小爲2的“步長”(或步幅)來縮短遞歸層,以使展開的RNN步長減少一半。 這類似於第一層中步長爲2的卷積網絡[25]。 我們使用cuDNN庫[2]有效地實現了卷積的第一層。

在這裏插入圖片描述
表2:用於訓練深度語音的數據集的摘要。 《華爾街日報》,《Switchboard》和費舍爾語料庫均由語言數據協會出版。

4 訓練數據

大規模深度學習系統需要大量的標記數據。 對於我們的系統,我們需要記錄許多話語和相應的英語轉錄本,但是很少有足夠規模的公共數據集。 爲了訓練我們最大的模型,我們因此收集了一個廣泛的數據集,其中包括來自9600位演講者的5000個小時的朗讀語音。 爲了進行比較,我們在表2中彙總了可用的標記數據集。

4.1 疊加合成

爲了進一步擴展我們的潛在訓練數據,我們使用數據合成,該合成已在其他情況下成功地用於擴大訓練樣本的有效數量[37、26、6]。在我們的工作中,目標主要是在現有系統崩潰的嘈雜環境中提高性能。但是,從嘈雜的環境中捕獲標記的數據(例如,閱讀語音)是不切實際的,因此,我們必須找到其他方法來生成此類數據。首先,通過源信號疊加的過程來生成音頻信號。
我們可以利用這一事實來綜合嘈雜的訓練數據。例如,如果我們有一個語音音頻軌道x(i)和一個“噪聲”音頻軌道ξ(i),那麼我們可以形成“嘈雜的語音”軌道xˆ(i)= x(i)+ξ(i)模擬在嘈雜環境中捕獲的音頻。如有必要,我們可以將混響,回聲或其他形式的阻尼添加到ξ(i)或x(i)的功率譜中,然後將它們簡單地相加即可得出相當逼真的音頻場景。
但是,這種方法存在一些風險。例如,爲了獲得1000個小時的純淨語音並創建1000個小時的嘈雜語音,我們將需要跨越大約1000個小時的獨特噪聲軌道。舉例來說,我們無法忍受10個小時的重複噪聲,因爲循環網絡可能會記住噪聲軌跡,並從合成數據中“減去”噪聲軌跡。因此,我們不使用單個長度爲1000小時的噪聲源ξ(i),而是使用大量較短的片段(更容易從公共視頻源中收集這些片段),並將它們作爲單獨的噪聲源,然後再疊加所有其中:xˆ(i)= x(i)+ξ(i)1 +ξ(i)2 +…
當疊加從視頻片段中收集到的許多信號時,我們最終可能會得到不同於真實環境中記錄的噪聲的“噪聲”聲音。爲了確保我們的合成數據和真實數據之間的良好匹配,我們拒絕了任何候選噪聲片段,這些片段中每個頻帶的平均功率與真實噪聲記錄中觀察到的平均功率明顯不同。

4.2 捕捉Lombard效應

語音識別系統在嘈雜的環境中遇到的一種具有挑戰性的效果是“倫巴德效應” [20]:說話者主動改變其聲音的音高或彎曲度以克服周圍的噪音。 此(非自願)效果不會在錄製的語音數據集中顯示,因爲它們是在安靜的環境中收集的。 爲了確保在我們的訓練數據中能體現這種效果,我們在數據收集過程中有意誘發朗伯效應,方法是在人們記錄發聲時通過戴上頭戴式耳機播放很大的背景噪音。 噪音誘使他們改變聲音,從而使我們能夠在訓練數據中捕獲倫巴特效應。

5 實驗

我們進行了兩組實驗來評估我們的系統。 在這兩種情況下,我們都使用第2節中描述的模型(從表2中選擇的數據集進行訓練)來預測字符級轉錄。 然後,將預測的概率向量和語言模型輸入到我們的解碼器中以產生單詞級別的轉錄,然後將其與基本事實轉錄進行比較以產生單詞錯誤率(WER)。

5.1 傳統語音: Switchboard Hub5’00 (full)

爲了將我們的系統與先前的研究進行比較,我們使用了公認但極具挑戰性的測試集Hub5’00(LDC2002S23)。 一些研究人員將此集合分爲“簡單”(Switchboard)和“複雜”(CallHome)實例,通常僅在較簡單的部分報告新結果。 我們使用最有挑戰性的全套案例,並報告整體單詞錯誤率。
我們評估我們的系統僅接受300小時Switchboard對話電話語音數據集的培訓,並受Switchboard(SWB)和費舍爾(FSH)的培訓,這是一種與Switchboard相似的方式收集的2000小時語料庫。 在Hub5’00上進行測試時,許多研究人員評估了從Switchboard對話電話語音中經過300小時訓練後的模型。 部分原因是因爲在整個2000小時的Fisher語料庫上進行訓練在計算上很困難。 使用第3節中提到的技術,我們的系統可以在短短几個小時內對2300個小時的數據進行完整處理。
由於Switchboard和Fisher語料庫以8kHz的採樣率分佈,因此我們計算80個線性間隔對數濾波器組和能量項的頻譜圖。 濾波器組的計算範圍是20ms的窗口除以10ms。 我們沒有評估更復雜的功能,例如梅爾級對數濾波器組或梅爾頻率倒譜系數。
揚聲器的適應對於當前的ASR系統的成功至關重要[44,36],尤其是在300小時Switchboard上訓練時。 對於我們在Hub5’00上測試的模型,我們通過將每個揚聲器的頻譜特徵歸一化來應用一種簡單的揚聲器自適應形式。 除此之外,我們不會以任何方式修改輸入功能
對於解碼,我們使用4-gram語言模型,該模型具有經過Fisher和Switchboard轉錄訓練的30,000個單詞的詞彙。同樣,通過對保留的開發集進行交叉驗證來選擇用於解碼目標的超參數。深度語音SWB模型是一個由5個隱藏層組成的網絡,每個隱藏層具有2048個神經元,僅需300小時總機即可對其進行訓練。
深度語音SWB + FSH模型是4個RNN的集合,每個RNN都有5個隱藏的2304個神經元隱層,這些神經元在整個2300小時的組合語料庫中訓練。所有網絡都在+/- 9幀上下文的輸入上進行訓練。
我們將結果報告在表3中。Vesely等人的模型。 (DNN-GMM sMBR)[44]在使用典型的混合DNN-HMM系統重新調整訓練集後,在DNN頂部使用了基於序列的損失函數。在合併的Hub5’00測試集中,該模型的性能是之前發佈的最佳結果。在結合2300個小時的數據進行訓練時,深度語音系統在此基準上的絕對WER和相對值分別提高2.4%和13.0%。 Maas等人的模型。 (DNN-HMM FSH)[28]在Fisher 2000小時語料庫上訓練時,WER達到19.9%。該系統是使用Kaldi [32](最先進的開源語音識別軟件)構建的。我們包含此結果,以證明深度語音在接受可比較數據量的訓練時與現有最佳ASR系統相比具有競爭力。
我們已經嘗試過通過耳機和計算機揚聲器播放的噪音。 使用耳機的優點是我們可以獲得“乾淨”的錄音,而沒有背景噪音,並且以後可以添加我們自己的合成噪音。
在這裏插入圖片描述
表3:Switchboard數據集上的錯誤率(%WER)。 標有“ SWB”和“ CH”的列分別是Hub5’00的簡單子集和困難子集。

5.2 噪聲語音

很少有標準可以測試嘈雜的語音性能,因此我們構建了自己的評估集,該評估集包含10個揚聲器的100個有噪和100個無噪聲發聲。 噪音環境包括背景收音機或電視; 在水槽裏洗碗; 擁擠的自助餐廳; 一個餐廳; 並在雨中駕駛的汽車內。 話語文本主要來自網絡搜索查詢和文本消息,以及新聞剪輯,電話交談,Internet評論,公開演講和電影腳本。 我們沒有精確控制嘈雜樣本的信噪比(SNR),但我們的目標是SNR在2至6 dB之間。
對於以下實驗,我們在表2中列出的所有數據集(超過7000小時)上訓練了RNN。由於我們在每次通過中訓練了15至20個帶有新合成噪聲的epoch,因此我們的模型從100,000多個小時的新穎數據中學習。我們使用6個網絡的集合,每個網絡具有5個2560個神經元的隱藏層。沒有任何形式的說話人適應應用於訓練或評估集。爲了使每個示例的總能力保持一致,我們會基於每個語音對訓練示例進行規範化。這些功能是在20ms的窗口中計算的160個線性間隔的對數濾波器組,跨度爲10ms和能量項。音頻文件在特徵化之前被重新採樣到16kHz。最後,從每個頻點中,我們去除訓練集上的全局平均值,然後除以全局標準偏差,主要是這樣,在訓練的早期階段就可以很好地縮放輸入。
如2.2節所述,我們使用5-gram語言模型進行解碼。我們在2.2億個Common Crawl6的短語上訓練了語言模型,這些短語的選擇使得每個短語的至少95%的字符在字母表中。僅保留最常見的495,000個單詞,其餘單詞重新映射到UNKNOWN令牌。
我們將Deep Speech系統與幾種商業語音系統進行了比較:(1)wit.ai,(2)Google Speech API,(3)Bing Speech和(4)AppleDictation。
我們的測試旨在對嘈雜環境中的性能進行基準測試。這種情況給評估Web語音API帶來了挑戰:當SNR太低或發話時間太長時,這些系統將完全沒有結果。因此,我們的比較僅限於所有系統返回非空結果的發話子集。8在測試文件中評估每個系統的結果如表4所示。
爲了評估第4.1節中描述的噪聲合成技術的有效性,我們訓練了兩個RNN,一個訓練了5000小時的原始數據,另一個訓練了相同的5000小時加上噪聲。 在這100種清潔語音中,兩個模型的清潔訓練模型和噪聲訓練模型分別具有大約相同的WER,9.2%WER和9.0%WER。 但是,在100種嘈雜的語音中,嘈雜模型的WER爲22.6%,而乾淨模型的WER爲28.7%,絕對值爲6.1%,相對改進爲21.3%。
在這裏插入圖片描述
表4:在原始音頻上評估的5個系統的結果(%WER)。 僅針對所有系統給出的發音報告分數。 每個數據集旁邊的括號中的數字,例如 乾淨(94),是發聲的次數。

6 相關工作

我們工作的幾個部分都受到先前結果的啓發。神經網絡聲學模型和其他連接方法最早是在1990年代初期引入語音管道的[1,34,11]。這些系統類似於DNN聲學模型[30、18、9],僅取代了語音識別管線的一個階段。從機械上講,我們的系統類似於通過深度學習算法構建端到端語音系統的其他工作。例如,Graves等。 [13]先前已經引入了“連接主義者的時間分類”(CTC)損失函數,用於對RNN產生的轉錄進行評分,並且在LSTM網絡中,先前已經將該方法應用於語音[14]。類似地,我們將CTC損失作爲訓練過程的一部分,但使用更簡單的具有整流線性激活的遞歸網絡[12,29,31]。我們的遞歸網絡類似於Hannun等人使用的雙向RNN。 [16],但進行了多項更改以增強其可伸縮性。通過關注可伸縮性,我們證明了即使沒有更復雜的LSTM機制,這些更簡單的網絡也可以有效。
我們的工作當然不是第一個利用可伸縮性來改善DL算法性能的人。深度學習中可伸縮性的價值得到了很好的研究[8,24],並且並行處理器(包括GPU)的使用已對最近的大規模DL結果起到了作用[43,24]。 DL算法向GPU的早期移植顯示出顯着的速度提升[33]。研究人員還開始選擇與GPU硬件良好匹配的設計,以提高效率,包括卷積[23,4,35]和本地連接[7,5]網絡,特別是當有cuDNN [2]和BLAS等優化庫可用時。的確,使用高性能計算基礎結構,如今有可能使用GPU集羣訓練具有超過100億個連接的神經網絡[7]。這些結果鼓舞了我們首先專注於做出可擴展的設計選擇,以有效地利用許多GPU,然後再嘗試自行設計算法和模型。
具有訓練大型模型的潛力,也需要大型訓練集。在其他領域(例如計算機視覺)中,大型標籤訓練集在用於饋送越來越大的DL系統時已經實現了性能上的飛躍[43,23]。但是,在語音識別中,這種大型訓練集並不常見,典型的基準測試所具有的訓練集範圍從數十小時(例如,《華爾街日報》的語料庫爲80小時)到數百小時(例如,總機和廣播新聞)。較大的基準數據集(例如帶有2000小時轉錄語音的Fisher語料庫[3])很少見,僅在最近才進行研究。爲了充分利用我們現有的遞歸網絡的表達能力,我們不僅依賴大量的帶標籤話語,而且還依賴於合成技術來生成新穎的例子。這種方法在計算機視覺中是衆所周知的[37、26、6],但是我們發現,如果正確完成,這種方法對於語音特別方便和有效。

7 結論

我們提出了一種基於端到端深度學習的語音系統,該系統能夠在兩種挑戰性場景中超越現有的最新識別管道:清晰的會話語音和嘈雜的環境中的語音。 我們的方法尤其通過多GPU訓練以及數據收集和綜合策略來構建大型訓練集,從而展現出系統必須處理的失真(例如背景噪聲和倫巴德效應)而得以實現。 這些解決方案相結合,使我們能夠構建一個數據驅動的語音系統,該系統在性能上比現有方法好得多,同時不再依賴阻礙了進一步發展的複雜處理階段。 我們相信,隨着我們將來利用不斷增加的計算能力和數據集大小,這種方法將繼續得到改善。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章