AI幫助保護瀕危的印第安語言——塞內卡

原創

2018-11-08 15:42

編譯：chux

全世界有近7000種語言，其中約一半被認爲是瀕危語言。這意味着他們中的許多人不在學校教授，語言不在商業或政府中使用，並且經常與計算機鍵盤不兼容。

爲了幫助保存其中一種語言的音頻和文本證據，羅徹斯特理工學院的研究人員開發了一種基於深度學習的自動語音識別系統，以保護印第安民族的語言塞內卡（Seneca）。

“這是個人的動機。保存和恢復我們的語言的第一步是記錄它，”Robert Jimerson（塞內卡人）表示，他是羅切斯特技術學院的計算和信息科學博士研究生和研究團隊的一名成員。

塞內卡不到50人使用。爲了幫助保護它，Jimerson將部落長老和親密朋友聚集在一起，他們都是Seneca的母語人士，用於記錄這種美洲原住民語言的音頻和文本文檔。

羅切斯特理工學院計算機工程助理教授Ray Ptucha 說： “之前沒有人真正嘗試過這種方法，在資源受限的情況下訓練自動語音識別模型。”

該團隊首先使用預建的深度神經網絡（DNN）聲學模型訓練大量英語數據，並通過轉移學習將該模型應用於塞內卡語。

使用NVIDIA Tesla P100 GPU和cuDNN加速的 TensorFlow深度學習框架，Jimerson和他的同事用155分鐘的音頻訓練了網絡，其中包括13000個單詞，其中包括由幾位以塞內卡語爲母語的成年人錄製和轉錄的1.3萬個單詞。

然後，該團隊使用三種不同的增強技術創建了新的合成訓練數據，其中包括噪聲添加，音高增強和速度增強。

“這是一個令人興奮的項目，因爲它彙集了來自工程和計算機科學，語言學和語言教學等衆多學科和背景的人，”波士頓學院計算機科學助理教授，RIT學院研究員Emily Prud’hommeaux 說。

目前，該團隊專注於降低單詞錯誤率，他們認爲這是由於訓練數據集較小。該團隊表示，他們開發的合成數據可以降低單詞錯誤率，但該模型仍需要一些工作。

該團隊在他們的論文中指出，“隨着我們當前語言文檔項目中塞內卡語料庫的規模增加，我們預計這些方法之間的性能差距將會縮小。”

論文：www.isca-speech.org/archive/SLTU_2018/pdfs/Robbie.pdf

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.