Direct speech-to-speech translation with a sequence-to-sequence model

本篇詳細介紹了Google Translate的新技術,從音頻直接翻譯音頻。這個模型叫做S2ST(speech-to-speech translation)。原理是通過一個語音的聲譜圖映射到另一種語音的聲譜圖。


Abstract

我們提出了一種基於注意力的序列到序列神經網絡,它可以直接將一種語言的語音轉換成另一種語言的語音,而不依賴於中間文本表示。該網絡經過端到端的訓練,學習將語音譜圖映射成另一種語言的目標譜圖,對應於翻譯後的內容(以不同的標準語音)。我們進一步證明了使用源說話者的聲音合成翻譯語音的能力。我們對兩個西班牙語到英語的語音翻譯數據集進行了實驗,發現該模型的性能略低於直接語音到文本的翻譯模型和文本到語音的合成模型的基線級聯,證明了該方法在這一非常具有挑戰性的任務上的可行性。


1. Introduction

我們的任務是語音到語音翻譯(S2ST):將一種語言的語音翻譯成另一種語言的語音。這個應用程序非常有助於打破不使用同一種語言的人之間的溝通障礙。具體地說,我們研究是否可以訓練模型直接完成這項任務,而不依賴於中間文本表示。這與傳統的S2ST系統不同,傳統的S2ST系統通常分爲三個部分:自動語音識別automatic speech recognition(ASR)、文本到文本機器翻譯text-to-text machine translation(MT)和文本到語音合成text-to-speech synthesis(TTS)[1-4]。

級聯繫統Cascaded systems存在組件間錯誤複合的潛在問題,例如識別錯誤導致更大的翻譯錯誤。直接S2ST模型通過訓練來解決端到端的任務,避免了這個問題。由於只需要一個解碼步驟,而不是三個,因此與級聯繫統相比,它們在減少計算需求和更低的推理延遲方面也有優勢。此外,直接模型自然能夠在翻譯過程中保留副語言和非語言信息,例如,在合成的譯文中保持源說話者的聲音、情感和韻律。最後,直接對輸入語音進行調節,可以很容易地學習生成不需要翻譯的單詞的流暢發音,比如名字。

然而,由於幾個原因,解決直接的S2ST任務特別具有挑戰性。全監督端到端訓練需要收集大量的輸入/輸出語音對。與用於MT的並行文本對或用於ASR或TTS的語音文本對相比,此類數據更難收集。與單一的語音到語音模型相比,分解成更小的任務可以利用更低的訓練數據需求,並且可以爲給定的訓練預算生成更健壯的系統。兩個光譜圖之間的不確定對齊也對訓練提出了重大挑戰,因爲它們的基本口語內容不同。

本文提出了一種訓練端到端的直接語音到語音翻譯模型Translatotron。爲了方便在沒有預定義對齊的情況下進行訓練,我們利用源或目標內容的高級表示形式,即轉錄形式,本質上是帶有語音到文本任務的多任務訓練。然而,在推理期間不使用中間文本表示。該模型的性能不如基線級聯繫統。然而,它證明了一個概念,並作爲未來研究的起點。

對級聯語音翻譯系統中不同子系統的組合方法進行了廣泛的研究。[5,6]使MT可以進入ASR的晶格。[7,8]採用隨機有限狀態傳感器集成聲學模型和翻譯模型,該傳感器可以使用維特比搜索直接解碼翻譯文本。在合成方面,[9]採用無監督聚類的方法尋找基於f0的韻律特徵,並從源語音和目標語音中轉移語調。[10]增強MT聯合預測翻譯詞和重音,以提高合成語音的表達能力。[11]利用神經網絡將源語音的持續時間和功率傳遞給目標。[12]通過將隱馬爾可夫模型狀態從ASR映射到TTS,將源說話人的語音轉換爲合成翻譯語音。類似地,最近關於神經TTS的研究也集中於在參考數據有限的情況下適應新的聲音[13-16]。

端到端語音到文本翻譯(ST)的初始方法[17,18]的性能比ASR模型和MT模型的級聯還要差。[19, 20]利用弱監督數據和多任務學習,實現了更好的端到端性能。[21]進一步表明,綜合訓練數據的使用優於多任務訓練。在這項工作中,我們利用了綜合訓練目標和多任務訓練的優勢。

提出的模型類似於最近的語音轉換的序列到序列模型,即用另一個人的聲音再現一個話語[22-24]。例如,[23]提出了一種基於注意力的模型,根據源語音的輸入特徵(與ASR瓶頸特徵連接的頻譜圖)在目標語音中生成頻譜圖。與S2ST相比,語音轉換的輸入輸出比對更簡單,近似單調。[23]還訓練特定於每個輸入-輸出揚聲器對的模型(即一對一轉換),而我們研究多對一和多對多揚聲器配置。最後,[25]在一個包含100個單詞的玩具數據集中演示了一個基於注意力的直接S2ST模型。在這項工作中,我們訓練真實的語言,包括自發的電話交談,在一個更大的規模。


2. Speech-to-speech translation model

圖1顯示了所提議的Translatotron模型體系結構的概述。根據[15, 26],它是由幾個單獨訓練組件:

1)一種引起序列測序網絡生成目標色(藍色)

2)聲碼器(紅色)轉換目標色timedomain波形

3)可選地,預訓練編碼器(綠色)可用於條件的解碼器來識別源說話人的身份,使跨語言語音轉換與翻譯同時[27]。

序列到序列編碼器堆棧將80通道的log-mel譜圖輸入特徵映射到隱藏狀態,這些隱藏狀態通過基於注意力的對齊機制傳遞,從而形成一個自迴歸解碼器,該解碼器預測與翻譯語音對應的1025個dimlog譜圖的每一幀。兩個可選的輔助譯碼器,每個都有自己的注意成分,預測源和目標音素序列。

該編碼器採用最新的語音翻譯[21]和識別[28]模型,由8個雙向LSTM層組成。如圖1所示,最後一層輸出被傳遞給初級解碼器,而中間激活被傳遞給預測音素序列的輔助解碼器。我們假設,早期的編碼層更有可能很好地表示源內容,而較深的層可能學習編碼關於目標內容的更多信息。

該譜圖解碼器使用類似Tacotron 2 TTS模型[26]的架構,包括pre-net、自迴歸LSTM堆棧和post-net components。爲了適應更具挑戰性的S2ST任務,我們對它做了一些修改。我們使用4-head multi-head additive attention[29]代替位置敏感注意,在實驗中表現出較好的性能。與[26]中256-dim相比,我們還使用了一個更窄的32維pre-net bottleneck,我們發現這對於在訓練中獲得注意力至關重要。我們還使用2個約簡因子[30],即預測每個解碼步驟的兩個譜圖幀。最後,與翻譯任務的結果一致[19,31],我們發現使用包含4或6個LSTM層的更深層解碼器可以獲得更好的性能。

我們發現,多任務訓練是解決任務的關鍵,我們通過集成輔助解碼器網絡來預測與源語音和/或目標語音對應的音素序列。在訓練過程中,利用這些輔助識別網絡計算損失,幫助主譜圖解碼器學習注意。它們不用於推理。與主譯碼器相比,輔助譯碼器採用了具有單頭加註意[32]的2層LSTMs。三種解碼器均採用注意缺失和LSTM區出正則化[33],概率均爲0.1。訓練使用batch爲1024的Adafactor優化器[34]。

由於我們只是在演示概念的證明,所以我們的實驗主要依賴於低複雜度的Griffin-Lim[35]聲碼器。然而,我們在聽力測試中使用WaveRNN[36]神經聲碼器來評估語音的自然度。

最後,爲了控制輸出揚聲器標識,我們加入了一個可選揚聲器編碼器網絡,如[15]。該網絡是針對說話人驗證任務進行有區別的預訓練,在翻譯加速器的訓練過程中不進行更新。我們使用來自[37]的dvector V3模型,針對8種語言(包括英語和西班牙語)的更大的851K使用者進行訓練。該模型從說話人的參考話語中計算出一個嵌入256-dim的說話人,並將其傳遞到線性投影層(使用序列到序列模型進行訓練),將維數降至16。這對於將在訓練過程中看不到的源語言使用者進行概括是至關重要的。


3. Experiments

我們研究了兩個西班牙語到英語的翻譯數據集:來自[21]的大型並行文本和讀語音對的“會話”語料庫,以及來自西班牙語的Fisher電話會話語料庫和相應的英語翻譯[38],由於其自發性和非正式的說話風格,這兩個語料庫更小,更具挑戰性。在3.1節和3.2節中,我們使用單一(女性)說話者英語TTS系統,從目標文本中合成目標語音;在第3.4節中,我們使用真實的人目標語音對會話數據集進行語音傳輸實驗。模型使用Lingvo框架[39]實現。有關特定於數據集的超參數,請參見表1。

爲了評估語音到語音的翻譯性能,我們使用一個預先訓練的ASR系統來識別生成的語音,並將生成的文本與地面真實參考譯文進行比較,計算BLEU評分[40]作爲語音清晰度和翻譯質量的客觀衡量標準。由於潛在的識別錯誤(參見圖2),這可以看作是底層翻譯質量的一個下界。我們使用[41]在960小時的LibriSpeech語料庫[42]上訓練的16k words piece attentionbasedasr模型,在test-clean和testother集上分別獲得了4.7%和13.4%的錯誤率。此外,我們還進行了聽力測試來測量主觀言語自然度平均意見得分(MOS),以及說話人相似度MOS來進行語音轉移。

3.1. Conversational Spanish-to-English

這個在[21]中描述的專有數據集是由衆包人員獲取的,用於閱讀西班牙語-英語對話MT數據集的兩邊。在本節中,我們沒有使用人類的目標語音,而是使用一個TTS模型來合成單個女性英語說話者的目標語音簡化學習目標。我們使用英語Tacotron 2 TTS模型[26],但使用格里芬林聲碼器方便。此外,我們以與[21]相同的方式添加背景噪聲和混響來增強輸入源語音。

得到的數據集包含979k個並行話語對,包括1.4k小時的源語音和619小時的合成目標語音。總的目標語音持續時間要小得多,因爲TTS輸出具有更好的端點,並且包含更少的停頓。9.6k對被拿出來進行測試。

輸入特徵幀由一個80通道的log-mel譜圖的3個相鄰幀疊加而成,如[21]所示。在這些實驗中沒有使用揚聲器編碼器,因爲目標語音總是來自同一個揚聲器。

表2顯示了使用不同輔助損耗組合訓練的模型的性能,與基線ST→TTS級聯模型相比,基線ST→TTS級聯模型使用相同數據訓練的語音到文本轉換模型[21],使用相同Tacotron 2 TTS模型合成訓練目標。請注意,由於評估過程中的ASR錯誤或合成地面真相時的TTS失敗,地面真相BLEU評分低於100。

沒有輔助損失的訓練會導致極其糟糕的表現。該模型正確地綜合了常見的單詞和簡單的短語,例如將“hola”翻譯成“hello”。然而,它並不總是翻譯完整的話語。雖然它總是在目標語音中產生似是而非的語音,但輸出可以獨立於輸入,由一串無意義的音節組成。這與未能學會注意輸入是一致的,並反映了直接S2ST任務的難度。

集成輔助性音素識別任務有助於規範編碼器,並使模型能夠學習注意力,極大地提高了性能。目標音素PER遠高於源音素PER,反映了翻譯任務的難度。兩種輔助任務的訓練質量都達到了最佳,但不同組合的訓練效果差異較小。總體而言,與基線仍有6個藍點的差距,說明還有改進的空間。然而,相對較小的差距顯示了端到端方法的潛力。

3.2. Fisher Spanish-to-English

該數據集包含約120k個並行話語對,跨越127小時的源語音。使用與上一節相同的語音,使用並行波網[43]合成目標語音。結果包含了96小時的合成目標語音。

在[19]之後,通過疊加80通道的log-mel譜圖,利用增量和加速度構建輸入特徵。與第3.1節相比,由於數據集的規模較小,我們發現要獲得良好的性能,需要更仔細的正則化和調優。如表1所示,我們使用更窄的編碼尺寸256,一個更淺的4層解碼器,並添加高斯權值噪聲到所有LSTM權值作爲正則化,如在[19]。模型對輔助解碼器超參數尤爲敏感,與最佳性能時通過激活來自編碼器的中間層堆棧作爲輸入到輔助解碼器,使用更激進的dropout爲0.3,腐爛的輔助減肥的訓練爲了鼓勵模型適合主S2ST任務。

實驗結果如表3所示。同樣,使用兩個輔助損耗效果最好,但是與3.1節不同的是,單獨使用任何一個都有很大的性能提升。僅使用源識別損失的性能非常差,這表明在沒有對翻譯任務進行嚴格監督的情況下,學習對該任務的對齊尤其困難。

我們發現,4-head的注意力比一個head的效果更好,不像對話任務,兩種注意力機制都有相似的表現。最後,就像在[21]中一樣,我們發現在ST任務中對底層6個編碼層進行預訓練可以將BLEU的分數提高5分以上。這是性能最好的直接S2ST模型,獲得了基線性能的76%。

3.3. Subjective evaluation of speech naturalness

爲了評估表2和表3中表現最好的模型的綜合質量,我們使用了[15]框架,基於主觀聽力測試衆包5點MOS評價。對每個數據集進行1k個示例的評分,每個示例由一個評分者進行評分。雖然這種評價預期與翻譯的正確性無關,但翻譯錯誤會導致低分,評價者稱這些例子“不可理解”。

結果如表4所示,比較了不同的vocoders,其中Griffin-Lim的結果對應於與3.1和3.2節相同的模型配置。正如預期的那樣,使用WaveRNN vocoders可以顯著地將評分從Griffin-Lim提高到“非常好”的範圍(4.0以上)。注意,將Griffin-Lim結果與地面真相訓練目標進行比較是最公平的,因爲它們是使用相應的較低質量vocoders生成的。在這樣的比較中,很明顯,S2ST模型的得分沒有ground truth高。

最後,我們注意到Translatotron與本次評估的基線之間存在類似的性能差距。在某種程度上,這是兩種模型所犯錯誤類型不同的結果。例如,Translatotron有時會發錯單詞的發音,尤其是專有名詞,使用原語的發音,例如“Dan”中的/ae/元音發錯爲/ah/,這與西班牙語一致,但對英語聽衆來說聽起來不那麼自然,而通過構建,基線一致地將結果投射到英語中。

圖2展示了行爲上的其他差異,其中Translatotron複製了輸入“eh”不流暢性(在圖的底部一行,轉錄爲“a”,在0.4 - 0.8秒之間),但是級聯沒有。同樣有趣的是,cascade將“Guillermo”翻譯成英語形式“William”,而Translatotron使用西班牙語名稱(儘管ASR模型誤譯爲“the ermo”),這表明直接模型可能傾向於更直接地重構輸入。類似地,在對應頁面的示例7中,Translatotron將“pasejo”重新構造爲“passage”而不是“tickets”,這可能反映出對同源詞的偏愛。我們把詳細的分析留給今後的工作。

3.4. Cross language voice transfer

在最後的實驗中,我們通過訓練圖1所示的完整模型,使用源說話者的聲音合成翻譯後的語音。在訓練過程中,揚聲器編碼器以地面真實目標揚聲器爲條件。我們使用了第3.1節的數據子集,其中我們將源記錄和目標記錄配對。請注意,每對音源和目標音箱總是不同的——數據不是從雙語音箱中收集的。該數據集包含606k對話語,重採樣至16khz,分別包含863小時和493小時的源語和目標語;6.3萬對(第3.1節的一個子集)用於測試。由於目標記錄中含有噪聲,我們採用[15]的去噪和音量歸一化來提高輸出質量。

表5比較了使用不同調節策略的性能。第一行對應於將源揚聲器的聲音傳輸到翻譯後的語音,而第2行是一個“欺騙”配置,因爲嵌入揚聲器可能會將有關目標內容的信息泄露給解碼器。爲了驗證這不會對性能產生負面影響,我們還對第3行中的隨機目標話語進行了條件設置。在所有情況下,性能都比表2和表4中針對合成目標訓練的模型差。這是因爲合成任意說話者的任務更加困難;訓練目標更嘈雜,訓練集更小;而用於評估的ASR模型對多噪聲多說話者目標的誤差更大。在BLEU評分方面,地面真實條件設置與隨機目標之間的差異非常小,驗證了潛在的內容泄漏不是一個問題(部分原因是揚聲器嵌入的維度非常低)。然而,對源上的條件設置落後1.8個藍點,反映了訓練和推理配置之間條件設置語言的不匹配。在所有情況下,MOS評分都很接近。然而,對源說話人的條件設置顯著降低了說話人相似度MOS超過1.4個點。這再次表明,在訓練中使用英語母語者的嵌入式並不能很好地推廣到西班牙語母語者。


4. Conclusions

我們提出了一個直接的語音到語音的翻譯模型,訓練端到端。我們發現在訓練過程中使用語音轉錄是非常重要的,但推理並不需要中間的語音轉錄。該模型在兩個西班牙語到英語的數據集上實現了高質量的翻譯,儘管性能不如ST和TTS模型的基線級聯。

此外,我們還演示了一種變體,它可以同時將源說話者的聲音轉換爲翻譯後的語音。語音傳輸不像在類似的TTS上下文[15]中工作得那麼好,這反映了跨語言語音傳輸任務的難度,以及對[44]的評估。提高語音傳輸性能的潛在策略包括通過添加語言對抗性損失來改進說話人編碼器,或者在S2ST損失中加入循環一致性術語[13]。

其他未來的工作包括利用弱監督,利用合成數據[21]或多任務學習來擴大訓練規模[19,20],並將韻律等聲學因素從源語轉換爲譯文語[45-47]。

 

  • [1] A. Lavie, A. Waibel, L. Levin, M. Finke, D. Gates, M. Gavalda, T. Zeppenfeld, and P. Zhan, “JANUS-III: Speech-to-speech translation in multiple languages,” in Proc. ICASSP, 1997.
  • [2] W. Wahlster, Verbmobil: Foundations of speech-to-speech translation. Springer, 2000.
  • [3] S. Nakamura, K. Markov, H. Nakaiwa, G.-i. Kikui, H. Kawai, T. Jitsuhiro, J.-S. Zhang, H. Yamamoto, E. Sumita, and S. Yamamoto, “The ATR multilingual speech-to-speech translation system,” IEEE Transactions on Audio, Speech, and Language Processing, 2006.
  • [4] International Telecommunication Union, “ITU-T F.745: Functional requirements for network-based speech-to-speech translation services,” 2016.
  • [5] H. Ney, “Speech translation: Coupling of recognition and translation,” in Proc. ICASSP, 1999.
  • [6] E. Matusov, S. Kanthak, and H. Ney, “On the integration of speech recognition and statistical machine translation,” in European Conference on Speech Communication and Technology, 2005.
  • [7] E. Vidal, “Finite-state speech-to-speech translation,” in Proc. ICASSP, 1997.
  • [8] F. Casacuberta, H. Ney, F. J. Och, E. Vidal, J. M. Vilar et al., “Some approaches to statistical and finite-state speech-to-speech translation,” Computer Speech and Language, vol. 18, no. 1, 2004.
  • [9] P. Aguero, J. Adell, and A. Bonafonte, “Prosody generation for speech-to-speech translation,” in Proc. ICASSP, 2006.
  • [10] Q. T. Do, S. Sakti, and S. Nakamura, “Toward expressive speech translation: a unified sequence-to-sequence LSTMs approach for translating words and emphasis,” in Proc. Interspeech, 2017.
  • [11] T. Kano, S. Takamichi, S. Sakti, G. Neubig, T. Toda, and S. Nakamura, “An end-to-end model for cross-lingual transformation of paralinguistic information,” Machine Translation, pp. 1–16, 2018.
  • [12] M. Kurimo, W. Byrne, J. Dines, P. N. Garner, M. Gibson, Y. Guan, T. Hirsimaki, R. Karhila, S. King, H. Liang ¨ et al., “Personalising speech-to-speech translation in the EMIME project,” in Proc. ACL 2010 System Demonstrations, 2010.
  • [13] E. Nachmani, A. Polyak, Y. Taigman, and L. Wolf, “Fitting new speakers based on a short untranscribed sample,” in ICML, 2018.
  • [14] S. O. Arik, J. Chen, K. Peng, W. Ping, and Y. Zhou, “Neural voice cloning with a few samples,” in Proc. NeurIPS, 2018.
  • [15] Y. Jia, Y. Zhang, R. J. Weiss, Q. Wang, J. Shen, F. Ren, Z. Chen et al., “Transfer learning from speaker verification to multispeaker text-to-speech synthesis,” in Proc. NeurIPS, 2018.
  • [16] Y. Chen, Y. Assael, B. Shillingford, D. Budden, S. Reed, H. Zen, Q. Wang, L. C. Cobo, A. Trask, B. Laurie et al., “Sample efficient adaptive text-to-speech,” in Proc. ICLR, 2019.
  • [17] A. Berard, O. Pietquin, C. Servan, and L. Besacier, “Listen and ´ translate: A proof of concept for end-to-end speech-to-text translation,” in NeurIPS Workshop on End-to-end Learning for Speech and Audio Processing, 2016.
  • [18] A. Berard, L. Besacier, A. C. Kocabiyikoglu, and O. Pietquin, ´ “End-to-end automatic speech translation of audiobooks,” in Proc. ICASSP, 2018.
  • [19] R. J. Weiss, J. Chorowski, N. Jaitly, Y. Wu, and Z. Chen, “Sequence-to-sequence models can directly translate foreign speech,” in Proc. Interspeech, 2017.
  • [20] A. Anastasopoulos and D. Chiang, “Tied multitask learning for neural speech translation,” in Proc. NAACL-HLT, 2018.
  • [21] Y. Jia, M. Johnson, W. Macherey, R. J. Weiss, Y. Cao, C.-C. Chiu, N. Ari et al., “Leveraging weakly supervised data to improve endto-end speech-to-text translation,” in Proc. ICASSP, 2019.
  • [22] A. Haque, M. Guo, and P. Verma, “Conditional end-to-end audio transforms,” in Proc. Interspeech, 2018.
  • [23] J. Zhang, Z. Ling, L.-J. Liu, Y. Jiang, and L.-R. Dai, “Sequenceto-sequence acoustic modeling for voice conversion,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019.
  • [24] F. Biadsy, R. J. Weiss, P. J. Moreno, D. Kanevsky, and Y. Jia, “Parrotron: An end-to-end speech-to-speech conversion model and its applications to hearing-impaired speech and speech separation,” arXiv:1904.04169, 2019.
  • [25] M. Guo and A. Haque, “End-to-end spoken language translation,” Stanford University, Tech. Rep., 2017. [Online]. Available: http://web.stanford.edu/class/cs224s/reports/Michelle Guo.pdf
  • [26] J. Shen, R. Pang, R. J. Weiss, M. Schuster, N. Jaitly, Z. Yang, Z. Chen, Y. Zhang et al., “Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions,” in Proc. ICASSP, 2017.
  • [27] A. F. Machado and M. Queiroz, “Voice conversion: A critical survey,” in Proc. Sound and Music Computing, 2010, pp. 1–8.
  • [28] C.-C. Chiu, T. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R. Weiss, K. Rao et al., “State-of-the-art speech recognition with sequence-to-sequence models,” in Proc. ICASSP, 2018.
  • [29] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” in Proc. NeurIPS, 2017.
  • [30] Y. Wang, R. Skerry-Ryan, D. Stanton, Y. Wu, R. J. Weiss, N. Jaitly, Z. Yang, Y. Xiao, Z. Chen, S. Bengio, Q. Le et al., “Tacotron: Towards end-to-end speech synthesis,” in Proc. Interspeech, 2017.
  • [31] Y. Wu, M. Schuster, Z. Chen, Q. V. Le, M. Norouzi, W. Macherey, M. Krikun, Y. Cao, Q. Gao, K. Macherey et al., “Google’s neural machine translation system: Bridging the gap between human and machine translation,” arXiv:1609.08144, 2016.
  • [32] D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate,” in Proc. ICLR, 2015.
  • [33] D. Krueger, T. Maharaj, J. Kramar, M. Pezeshki, N. Ballas, N. R. ´ Ke, A. Goyal, Y. Bengio et al., “Zoneout: Regularizing RNNs by randomly preserving hidden activations,” in Proc. ICLR, 2017.
  • [34] N. Shazeer and M. Stern, “Adafactor: Adaptive learning rates with sublinear memory cost,” in Proc. ICML, 2018, pp. 4603–4611.
  • [35] D. Griffin and J. Lim, “Signal estimation from modified short-time Fourier transform,” IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. 32, no. 2, pp. 236–243, 1984.
  • [36] N. Kalchbrenner, E. Elsen, K. Simonyan, S. Noury, N. Casagrande, E. Lockhart, F. Stimberg, A. v. d. Oord, S. Dieleman et al., “Efficient neural audio synthesis,” in Proc. ICML, 2018.
  • [37] A. Zhang, Q. Wang, Z. Zhu, J. Paisley, and C. Wang, “Fully supervised speaker diarization,” arXiv:1810.04719, 2018.
  • [38] M. Post, G. Kumar, A. Lopez, D. Karakos, C. Callison-Burch et al., “Improved speech-to-text translation with the Fisher and Callhome Spanish–English speech translation corpus,” in Proc. IWSLT, 2013.
  • [39] J. Shen, P. Nguyen, Y. Wu, Z. Chen et al., “Lingvo: a modular and scalable framework for sequence-to-sequence modeling,” 2019.
  • [40] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “BLEU: A method for automatic evaluation of machine translation,” in ACL, 2002.
  • [41] K. Irie, R. Prabhavalkar, A. Kannan, A. Bruguier, D. Rybach, and P. Nguyen, “Model unit exploration for sequence-to-sequence speech recognition,” arXiv:1902.01955, 2019.
  • [42] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, “LibriSpeech: an ASR corpus based on public domain audio books,” in Proc. ICASSP, 2015.
  • [43] A. van den Oord, Y. Li, I. Babuschkin, K. Simonyan, O. Vinyals, K. Kavukcuoglu, G. van den Driessche et al., “Parallel WaveNet: Fast high-fidelity speech synthesis,” in Proc. ICML, 2018.
  • [44] M. Wester, J. Dines, M. Gibson, H. Liang et al., “Speaker adaptation and the evaluation of speaker similarity in the EMIME speech-to-speech translation project,” in ISCA Tutorial and Research Workshop on Speech Synthesis, 2010.
  • [45] Y. Lee and T. Kim, “Robust and fine-grained prosody control of end-to-end speech synthesis,” arXiv:1811.02122, 2018.
  • [46] Y. Wang, D. Stanton, Y. Zhang, R. Skerry-Ryan, E. Battenberg, J. Shor et al., “Style tokens: Unsupervised style modeling, control and transfer in end-to-end speech synthesis,” in Proc. ICML, 2018.
  • [47] W.-N. Hsu, Y. Zhang, R. J. Weiss, H. Zen, Y. Wu, Y. Wang, Y. Cao, Y. Jia, Z. Chen, J. Shen et al., “Hierarchical generative modeling for controllable speech synthesis,” in Proc. ICLR, 2019
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章