應用與交互,智能電話的幾個重要模塊

在信息交流的方式和語言上面,對於人類來說是一件很容易做的事。然而,於機器而言語音識別就不會那麼簡單了,其中涉及的技術以及邏輯都很繁瑣。

語音識別,又稱爲自動語音識別(AutomaticSpeechRecognition,ASR),指計算機可以自動將人類的語音內容轉換成相應的文本,然後呈現給人類的技術。語音識別技術已有50多年的歷史。近年來,語音識別技術得到了廣泛的應用纔剛剛開始。隨着移動設備、可穿戴設備、智能家居設備、智能電話機器人或系統的日益普及,對話交互逐漸成爲人機交互的焦點。

1、語音識別的組成部分
語音識別主要由以下基本模塊組成:信息處理與特徵處理、聲學模型(AM)、語言模型(LM)、發音(語音)字典和×××。

信號處理和特徵提取。
它是系統語音識別的第一個步驟,也是第一個部分。在接受原始的音頻信號的同時還要爲後續的升學模型提取適當的的代表性特徵向量,就是由它來完成。在信號的處理方面,它能夠在比較嘈雜的環境下把人聲識別率提到最優解。

聲學模型。
提到聲學,就不得不提到大名鼎鼎隱馬爾科夫模型,通常的語音識別系統都能通過這個模型對詞、音節、音素等基本聲學單元進行建模,然後生成模型。簡單來講就是對發聲建模,把語言輸出轉換爲聲學輸出。

語言模型。
語言模型用於對系統需求辨認的語言進行建模。各種語言模型,包括和上下文無關語句,都能夠用作言語模型。現在,大多數語音辨認體系普遍採用計算N-gram模型及其變體。它能夠通過訓練學習單詞和單詞之間的聯繫來估量假設單詞序列的可能性。

發音詞典。
發音詞典包含系統所能處理的單詞的集合及其發音。發音詞典得到了聲學模型建模單元和語言模型建模單元之間的映射關係,將兩者連接起來,組成一個搜索的狀態空間用於×××進行解碼工作。
發音詞典包含系統可以處理的單詞及其發音的集合。語音字典獲取聲學模型構建單元與語言模型構建單元之間的映射關係,並將它們連接起來形成一個搜索狀態空間,有了兩者的相互結合就可以用於×××解碼工作。

×××。
這是一個語音識別系統的最核心部分之一,一款合格的電話機器人好不好用就要看這裏,作爲語音識別系統的核心之一,其任務主要負責讀取輸入的語音信號的特徵序列,再根據聲學模型、語言模型及發音詞典,解碼出以最大概率輸出該信號的詞串。
語音識別就是一個先編碼後解碼的過程,信號處理和特徵提取就是編碼的過程,由原始的語音得到語音向量。後面即是對語音向量的解碼,而解碼需要上面提到的聲學模型和語言模型。

2、機器如何識別語音
對於計算機室視覺來說,語音識別更爲純粹,因爲只有一個核心的任務,就是講人類的語言轉化爲機器人能夠編譯的數據然後轉化爲文本然後呈現出來。簡單來說這些文本就是將聲音幀切成音素再組合成單詞,也就使語音轉化成了文本。

3、語音識別的應用及發展
因爲上訴技術逐漸成熟,催生出了電話機器人,這是近幾年興起的人工智能產品,以歐能智能機器人爲例子,它主要通過電話羣呼潛在客戶,溝通進行信息篩選,幫助企業選擇意向客戶。企業使用電話機器人可以減少人工成本,提高工作效率。這些方面的應用能極大的減少人工上面的成本,很多企業的發展也不會拘泥。

從大的方向上面來說,雖然語音識別技術仍然還有許多亟待提高的地方,比如方言的語音識別、高噪音環境下的語音識別等方面還有一段路要走。但不可否認的是,隨着信息技術的不斷髮展,語音識別技術也將不斷獲得突破,有着更加廣闊的發展空間。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章