(IS 19)Automatic Detection of Prosodic Focus in American English

會議:INTERSPEECH 2019
論文:Automatic Detection of Prosodic Focus in American English
作者:Sunghye Cho, Mark Liberman, Yong-cheol Lee

Abstract

焦點通常由韻律的突出來調節,突出強調句子中的特定元素以進行強調或對比。儘管它在交流中很重要,但在語音識別領域卻很少受到關注。本文開發了一種使用電話號碼字符串的美式英語韻律重音自動檢測系統。我們的數據是由5位發言者(3位女性和2位男性)讀取的100個10位電話號碼字符串。我們從字符串中的每個數字和一個類別變量中提取了18個韻律特徵,並訓練了Random Forest模型來檢測聚焦數字在給定字符串中的位置。我們還將67位以美國英語爲母語的人的感知實驗中的模型性能與人類判斷率進行了比較。我們的最終模型顯示了韻律焦點位置檢測的準確度爲92%,比人的感知(97.2%)略低,但比機會水平(10%)好得多。我們討論了模型中的預測功能以及將來研究中要添加的潛在功能。

7. Discussion and Conclusion

在本文中,我們構建了韻律焦點自動檢測系統,並將其性能與人類聽衆進行了比較。我們使用簡單易懂的功能進行訓練,可以適應常規話語和大型語音語料庫中的焦點檢測系統的開發,而我們更傾向於展現美國英語的焦點特徵。我們的模型正確地在92%的時間內識別了電話號碼字符串中的焦點位置。該表現略低於人類的表現(97.2%),但遠高於機會水平(10%)。我們的模型顯示,每個數字的中位數F0值是最可預測的韻律特徵,其次是中位數強度。

聽衆能夠正確識別97.2%的時間這一事實表明,在美國英語中檢測韻律重點是相對容易的任務。即使我們模型的性能遠高於機會水平,但模型的性能仍比人工精度低5%。這可能是因爲與模型的複雜性相比,我們沒有足夠的示例。鑑於訓練集中的精度始終爲100%(高方差),因此添加更多訓練示例可能有助於改善模型性能並提高模型的可推廣性。但是,也可能情況是韻律特徵不足以檢測韻律焦點,並且母語使用者可能會聽取韻律特徵以外的其他線索,例如語音質量或頻譜信息。特別是,對於第一位數字組(NNN-NNN-NNNN),聽衆能夠在大約97%的時間內正確識別出焦點,但是我們模型的性能大約爲89%(表5)。這可能表明母語人士正在收聽其他聲學功能。在這項研究中,我們僅包含韻律特徵,但添加了其他特徵,例如發聲線索和頻譜特徵,並對其進行實驗也可能會改善模型性能。我們計劃在將來的研究中研究這兩種可能性。我們還計劃將項目擴展到常規句子和自然對話。

這項研究表明韻律焦點可以被自動檢測到,並且具有相當的準確性。我們認爲自動檢測焦點將改善人機交流和語音識別,並有助於更好地理解自然交流。

1. Introduction

交流的主要目的是向對話者提供適當的信息。演講者想要傳達的信息需要系統地構建以促進交流。考慮以下簡短對話:

A: Is it May 6th today?
B: No, today is the 7th.

在B中,今天是老信息,而第七是說話者B要傳達的新信息。在此對話中,第七是最有信息意義的部分,因此受到關注,這是一種話語功能,突出了句子[1],[2]中的特定元素。考慮到在交流中集中注意力的重要性,集中的元素通常會觸發韻律突出,並伴隨持續時間,強度和音調的增加。因此,它在發音上與其相鄰的單詞[2],[3],[4],[5]截然不同,並且在感知上變得高度可識別[6]。儘管韻律重點已經被廣泛研究了數十年(例如[3],[7]),但在語音識別領域卻很少受到關注。這項研究旨在建立和評估焦點自動檢測系統,因爲焦點自動檢測有望促進人機交互。

先前關於情感識別或說話人狀態和特質識別的研究的成功奠定了該項目的基礎。例如,[8]使用隱馬爾可夫模型對從五個說話者的語音樣本中提取的七個情感進行分類。他們從行爲和自發的情緒中提取了與音調和能量相關的特徵,並表明他們具有全局特徵的模型正確地識別了86.8%的情緒,這高於人類的判斷(81.3%)。 [9]使用高斯混合模型中的MFCC和音高特徵,將語音情緒分爲兩種不同的語料庫(一種是瑞典語,另一種是英語),並表明結合所有特徵訓練的模型表現最佳。 [10]還使用隱藏的馬爾可夫模型作爲分類器,並使用短時對數頻率功率係數(LFPC)作爲特徵,對六個情感類別進行了分類。他們的模型正確地識別了79.9%的緬甸語發音和76.4%的普通話語發音,機會率是16.67%(六類中的一種)。此外,INTERSPEECH [11],[12],[13]上關於情緒識別,副語言學和說話人特徵的挑戰系列(以及隨後的挑戰)促進了該領域的研究,表明可以自動檢測到情緒和副語言功能。

先前研究的成功促使我們開發了韻律焦點自動檢測系統。儘管語音識別已經取得了巨大的成功和進步,但是尚未對機器進行訓練以識別句子或話語中的重點信息,從而爲人機通信留下了改進的空間。由於聲學特徵和機器學習模型已經可以有效地從語音信號中預測情緒和其他副語言功能,因此可以合理地相信韻律焦點也可以使用機器學習技術自動檢測到。爲了實現這一目標,我們研究了韻律特徵並開發了可自動檢測句子中韻律重點的分類器。

2. Objectives

由於以下原因,我們選擇將韻律重點放在電話號碼字符串上作爲訓練數據:(i)數字在人機交互中很重要,例如在語音助手和用戶之間的對話中(例如,請考慮以下常見的語音命令用法場景): VA:“計時器13分鐘,對嗎?”用戶:“否,計時器30分鐘。”),(ii)將數字集中在電話號碼字符串中時,語法和形態學策略被排除在外,以便僅進行韻律調製(iii)字符串中的所有位置都同樣容易受到焦點的影響,這使我們能夠檢查模型是否可以預測焦點,而與可變焦點位置無關。

據我們所知,本研究是構建焦點自動檢測系統的第一項試驗。我們的目標是(i)提取和識別最能預測焦點的韻律特徵,(ii)使用這些提取的特徵訓練和評估預測模型,以及(iii)將訓練後的模型的性能與人類的感知速度進行比較。專注於電話號碼。

3. Methods

3.1. Data
我們作爲一個較大的項目[14] [15]的一部分,收集了美國英語中韻律重點的數據集,該項目旨在調查跨語言的共性和重點差異。我們引起了糾正焦點,該糾正焦點使用以下問答結構(數字僅是示例)糾正了先前講話中的不準確信息:

A: Is Mary’s number 887-412-4699?
B: No, the number is 787-412-4699.

聽完預先錄製的提示問題(上述問答結構中的講者A)後,五名以英語爲母語的美國英語使用者(3名女性,2名男性,平均年齡:27.8歲)閱讀了100個電話號碼字符串,格式爲NNN-NNN-NNNN,它們與前面的語音僅相差一個數字,從而糾正了錯誤的信息,就像它們在上述對話中是說話者B一樣。指示參與者儘可能自然地閱讀琴絃。

讀取的電話號碼字符串是由Python腳本創建的,因此每個字符串位置均包括10個數字(從0到9),並且每個字符串位置中的每個數字均被賦予焦點以平衡焦點的分佈。我們還要求讀取每個分開的數字(例如,爲了保持一致性,將“ 2156”表示爲“二一五六”而不是“二十一五十六”),將0表示爲“ O”而不是“零”。

錄製會話在帶有Plantronics頭戴式麥克風的聲音衰減的錄音棚中進行,錄製內容直接以44.1kHz採樣率和16位分辨率保存到便攜式計算機中。

**3.2. Features **
數字字符串中的每個數字都是由一位作者手動對齊的。我們使用Praat [16]腳本從每個數字中提取了18個韻律特徵,如表1所示。
在這裏插入圖片描述
在測量音高時,我們將女性揚聲器的音調範圍設置爲100Hz至500Hz,對於男性揚聲器將音調範圍設置爲75Hz至300Hz,以減少音調加倍或減半的誤差。數字的相對持續時間計算爲給定電話號碼中數字的比例(=數字持續時間/整個電話號碼字符串的總持續時間)。

除了諸如均值,中位數和標準偏差之類的基本功能外,我們還測量了音高輪廓的斜率和每個數字的偏移速度(Hz / sec),以捕獲動態音高模式。在測量俯仰斜率時,我們在[17]中實施了該方法,而對於偏移速度,我們在[18]中實施了該方法。

我們還擁有一個分類變量,即校正後的數字。由於英文數字的音節數量有所不同(例如,七對一),這直接影響持續時間特徵,因此我們假設將校正後的數字作爲特徵可以改善模型的性能。但是,重要的是要注意,有關校正後的數字的信息不會導致數據泄漏,因爲該任務是要確定聚焦數字的位置(例如215-123-4567中的第三個位置),而不是來確定關注的數字本身(例如215-123-4567中的5)。我們用二進制向量(1、0)對數字信息進行了僞編碼,並將這些值用作分類變量。

由於每個電話號碼字符串中有10位數字,因此使用的聲學功能數爲180,帶有500個示例(= 5個揚聲器x 100個電話號碼字符串)。爲了促進有效的學習,我們對每個數字字符串中的所有聲學特徵進行了z評分。例如,我們將數字字符串中所有位置的平均F0值分組在一起,然後對這些值進行z評分。這是因爲在美國英語中,焦點位置的韻律特徵與非焦點位置的韻律特徵有很大不同(請參見第4節),並且數字之間的相對差異很重要。我們還估算了Python中的缺失值,其中Praat由於持續時間太短或前輔音太長而無法音調跟蹤,在此過程中給定電話號碼字符串中某項功能的中值作爲估算值價值觀缺失是有效學習的重要一步。提取的特徵總數爲190(= 180個聲學特徵+ 10個分類特徵(從0到9))。

3.3. Model and feature selection
爲了獲得更高的準確性和更容易的模型解釋性,我們選擇了“隨機森林”分類器作爲建模框架。 由於與數據中有限數量的示例相比,我們擁有許多功能,並且某些功能可能高度相關(例如平均音高和中值音高值),因此對於我們而言,選擇足夠有用的功能非常重要。 我們使用Python中的基本相關函數測量了特徵之間的相關程度,並刪除了訓練前相關性高於0.5的特徵。 爲了評估模型的可推廣性,我們進行了留一小組淘汰的交叉驗證(CV),將一位演講者產生的所有代幣分組爲一組。 這項交叉驗證技術對於防止可能由同一位演講者製作的示例的隨機訓練和測試拆分引起的潛在數據泄漏至關重要。 管道中的所有進程都是使用python中的scikit-learn [19]執行的。

4. Feature analysis

圖1顯示了聚焦數字和非聚焦數字之間的韻律差異。 對於圖1所示的所有示例功能,除了相對持續時間外,聚焦數字的值都比未聚焦數字的值高。 這意味着聚焦的數字以較高的音調,強度和較陡的音調斜率表示。
在這裏插入圖片描述
爲了檢查這些差異是否顯着,我們使用R中的lmerTest [20]建立了線性混合效果模型,其中特徵值作爲因變量,聚焦條件作爲固定效果預測器,說話者作爲隨機效果。模型估計聚焦的數字具有較高的最大音高值(估計係數= 4.92,t = 2.869,p = 0.004),較高的平均強度(估計的係數= 0.36,t = 2.017,p = 0.044)和較陡的音高斜率(估計係數= 23.469,t = 2.316,p = 0.021),但沒有更長的相對持續時間(估計係數= 0.0001,t = 0.084,p = 0.933)。相對持續時間不重要的原因似乎是因爲字符串末尾數字(NNN-NNNNNNN)受到最終加長的影響。由於在此分析中我們僅將關注的數字與其他數字分開,因此字符串最終數字似乎掩蓋了關注的數字與未關注的數字之間的差異。表2按揚聲器顯示了模型的隨機斜率,顯示了我們數據中揚聲器間的變化。
在這裏插入圖片描述

5. Human perception

5.1. Participants and procedure
人類感知數據改編自[14]。通過在線實驗平臺Qualtrics招募了67位講英語的英語母語人士(平均年齡:19.5歲,標準差:1.1)。參加者都是在賓夕法尼亞大學學習的本科生,他們的參加獲得了課程學分的補償。

我們隨機選擇了五個揚聲器產生的100個電話數字字符串(第3.1節),並詢問聽衆在給定的電話號碼字符串中哪個數字的聲音聽起來像正確的。爲了確保參與者瞭解實驗的目的,我們在開始實驗之前提供了有關校正重點的簡短說明。僅將去上下文化的電話號碼字符串提供給參與者,並且參與者只能從十個數字中選擇一位。他們可以聽很多次刺激。

5.2. Results
收聽者能夠在97.2%的時間內正確識別出所關注的數字。準確度根據焦點在給定字符串中的位置而略有不同。聆聽者在98.1%的時間中發現韻律焦點時,落在第八位數字上,而他們正確地在93.8%的時間中發現了對第四數字的焦點(混淆矩陣請參見6.3節中的表5)。聽衆的個人分數從89%到100%不等,但總體而言,人類聽衆的感知是非常準確的。

6. Classification results

6.1. Selected features
表3以模型中特徵重要性的順序顯示了選定特徵的列表。 刪除相關性高於0.5的特徵後,剩下83個特徵,其中73個是聲學特徵,而10個是校正後的數字(從0到9)的分類特徵。 在73個特徵中,選擇了所有10箇中值F0,IQR F0,中值強度,最大強度和IQR強度特徵(來自所有位置),還包括一個最大-最小F0特徵(來自數字3),七個最小強度特徵 (來自數字1、2、3、5、6、7、0,其中0表示第10位),六個最大-最小強度特徵(來自數字2、4、5、7、8、0),四個持續時間特徵 (來自數字3、6、7、9),兩個相對持續時間特徵(來自數字1和5)和三個音高斜率特徵(來自數字4、5、7)。 我們對所選位置的給定特徵的特徵重要性求和,並對錶3中的五個交叉驗證摺疊的求和特徵求平均值。
在這裏插入圖片描述
選定的特徵表明,數字的中位數F0值是最可預測的特徵,其後是三個與強度有關的值(中位數,IQR和最大強度)。 唯一的分類變量,校正數字,也很重要,但不如音高或強度高。

6.2. Model performance
表4總結了每個CV fold的模型性能。
在這裏插入圖片描述
我們的模型可以在大約92%的時間內正確地對焦點數字進行分類,該數字低於人類的感知(97.2%),但遠高於機會水平(10%,十分之一)。 考慮到每個CV摺疊只有400個令牌用於訓練,我們的模型的性能被認爲是很高的。 該模型的性能取決於測試集(即,將演講者的代幣作爲測試集顯示)從88%到95%。 當測試集是第二位男性說話者產生的代幣時,該模型的表現似乎相對較差。 這可能表明該說話人的韻律特徵與訓練集中的其他說話人不太相似,並且在標註韻律重點時,說話人之間存在差異。 由於我們項目的目標是開發一個韻律焦點的自動檢測系統,而不是研究說話人韻律在標記韻律焦點時的變異性,因此我們將這一觀察結果留待將來研究。

6.3. Comparison with human perception
在本節中,我們將模型性能與人類感知進行了比較(第5.2節)。 表5顯示了聽衆和我們的模型的糾正重點的混淆矩陣。
在這裏插入圖片描述
該模型的性能通常低於人類的感知能力,但是該模型在檢測位置6的韻律焦點(人類:96%,機器:100%)和在位置4(人類:93.8%,機器: 94%)。 一般而言,我們的模型在邊界位置(例如位置3、6和10)比邊界內部位置的性能更好。 這似乎是因爲由於最終加長,邊界數字比邊界內部數字更長,這使得與持續時間相關的特徵對於機器學習更加健壯。 但是,與聽衆相比,該模型在檢測第一位數組(NNN-NNN-NNNN)的焦點方面表現不佳,這表明用於校正焦點的韻律特徵在第一位數組中可能較弱。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章