基於智能語音識別的雲電視系統設計

爲了提高智能電視的可操作性，文章提出了一種基於智能語音設別的雲電視系統設計方案。該系統在傳統的智能電視上加入語音輸入和雲端網絡技術，對語音智能處理之後達到操作電視的作用，可以通過語音輸入自動查找或者使用電視功能，提高了智能電視的可操作性，讓智能電視使用更方便，適合更多的使用人羣。

當前，隨着計算機和互聯網技術的高速發展、3c融合的趨勢以及電視機的數字化發展，作爲家庭娛樂核心家電的電視機已經開始向智能化多媒體網絡電視方向發展。智能網絡電視機是一臺多功能的網絡終端，用戶可以通過該網絡終端得到諸多信息和服務，然而伴隨應用功能的增加，其操作也隨之變得複雜。面對智能電視的功能複雜、操作難問題，僅僅是將電視機的紙質說明書或者做成電子文檔以flash形式在電視機上進行播放，並沒有詳細的指引用戶操作的導航功能，或者說有詳細的說明，電視面對的是任何消費者，很多功能的操作他們也不是很明白，甚至很多功能都找不到。在電子產品智能化的今天，智能語音設別是一個熱門話題，該技術的實現提高了電子產品的可操作性，爲用戶帶來了更多的方便。所以設計一個基於智能語音設別的電視系統，用語音來實現快速導航到各個需要的功能、信息、服務等應用成爲當務之急。

本系統爲基於智能語音設別的雲電視系統，將輸入的語音數據傳輸到電視機系統，系統把該模擬語音數據預處理，轉化爲數字語音信號，根據各個模塊需求把數字語音數據發送到雲端，雲端經過智能語義識別分析處理之後，返回具體的控制指令給電視予以處理。

    1.系統總體設計

    該電視系統結構圖如圖1所示，該系統分三個模塊設計，語音設別、電視系統處理、雲端處理。在有網絡連接的情況下，通過麥克錄入語音，再通過語音模塊把錄入的語音轉化爲特定的語音格式傳輸到雲端的中央服務器，雲端服務器把傳輸過去的的語音與許多表示特定字符的語音模型進行比較，以提供輸入語音所包含特定字符的許多不同可能性。然後，雲端服務器生成一個字符序列，根據基於字符的語言模型，這個字符序列表示了輸入語音中所包含已知特定字符的特定序列的不同可能性。然後字符序列通過網絡被傳輸到中央服務器，在這裏，字符序列生成一個詞彙序列，根據詞彙表和基於詞彙的語言模型，這個詞彙序列表示了輸入語音中所包含已知特定字符的特定序列的不同可能性。然後，雲端服務器根據詞彙表確定哪個特定詞彙序列與輸入語音最匹配，並將所確定的詞彙序列經由網絡輸送回終端電視機系統，電視機系統再把得到的數據分模塊處理（電視機系統不同模塊有不同的功能）。該電視系統硬件使用MIPS構架CPU，配置Linux操作系統。語音通過MIC輸入，設計有兩路MIC接口，使用標準的網絡接口用於網絡通信。

    2.語音識別系統設計

    2.1　語音識別基礎知識

    語音設別技術，也被稱爲自動語音設別，即Automatic Speech Recognition（ASR），其目標是將人類語音中的詞彙內容轉換爲計算機可讀的輸入，例如按鍵、二進制編碼或者字符序列。與說話人設別及說話人確認不同，後者嘗試設別或確認發出語音的說話人而非其中所包含的詞彙內容。

    語音識別系統本質上是一個模式識別系統。語音識別一般分兩個步驟，第一步是系統“學習”或“訓練”階段。這一階段的任務是建立識別基本單元的聲學模型以及進行文法分析的語言模型等。第二步是“識別”或“測試”階段。根據識別系統的類型選擇能夠滿足要求的一種識別方法，採用語音分析方法提取出這種識別方法所要求的語音特徵參數，按照一定的準則和測度與系統模型進行比較，通過判決得出識別結果。

    2.2　語音設別系統設計

    語音設別系統框圖如圖2所示。首先要把電視機麥克輸入的模擬語音信號進行預處理，雲端需要數字語音信號，這裏預處理使用語音IC進行處理，包括預濾波、採樣和量化、信號數字化、加窗、斷點檢測、預加重等。語音信號經過預處理後，接下來重要的一環就是特徵參數提取，其目的是從語音波形中提取出隨時間變化的語音特徵序列。把特徵提取的結果送到電視機操作系統中進行判斷處理，分析是否需要將其傳送到雲端服務器，雲端服務器在對接收到的語音進行智能分析處理之後傳回電視機終端，進行相應的功能處理。

    2.3　雲端服務器智能處理

    雲端服務器處理主要針對數字化語音數據進行分析處理，本系統的功能比較複雜，語音處理工作量非常大，該設計基於雲計算的服務器來完成，在服務器端對語音進行分析處理的同時還需要進行智能設別，該智能設別主要針對本電視機系統的一些關鍵字及語音的語義分析，同時對於電視機的不同模塊進行分別處理，來完成使用者所想的功能。使用雲計算服務器可以減少電視機終端的硬件成本，增加處理速度，來達到對用戶命令的智能處理。

    2.3.1　電視機與雲端的傳輸協議

    對於特定的電視機系統，每個模塊具有特定的關鍵字，在傳輸數據到雲端的時候，需要傳輸模塊特徵和相應的語音數據。

    2.3.2　語音訓練與識別的主要方法

    在雲端接收到數據之後，需要對語音數據進行設別。語音訓練與識別是一個模式訓練和識別的過程。模式訓練是指依照一定的規則，對大量訓練信息進行處理，獲取能夠反映該信息本質特徵的模型參數，將從這些訓練信息中得到的模型參數組合成一個模式庫，而模式匹配則是指依據一定的規則規範，將輸入的未知模式與模式庫中的模式進行匹配，從模式庫中尋找一個相似度最高，即最佳匹配的模式。這種訓練和匹配的方法有許多種，目前較常見的方法主要有動態時間規整（DTW）、隱馬爾可夫鏈（HMM）模型、人工神經網絡（ANN）等。

    2.3.3　隱馬爾可夫鏈模型

    本系統用隱馬爾可夫鏈（Hidden Markov Models，HMM）模型來對語音進行訓練和識別，在隱馬爾可夫鏈模型中，它使用馬爾可夫鏈來模擬信號統計特性的變化，本質上它是一個雙重隨機過程的概率模型。第一重隨機過程的概率模型是指由馬爾可夫鏈來表示狀態之間的轉移，另外一重隨機過程的概率模型是指每個狀態和多個觀測值之間的隨機對應關係。在實際問題的應用中，HMM的雙重隨機過程觀察者不能直接看到狀態，只能看到觀察值，且只有利用一個隨機過程去感知狀態的存在以及特徵。本質上說，人類的語言過程也是一個雙重隨機過程。語音信號本身是一個能夠被觀測到的時變序列，是由人的大腦根據語法知識和言語的需要而發出的音素的參數流，這部分就相對於HMM模型中不可觀測的各種狀態。HMM模型可以很好地模擬這個雙重隨機過程，並且很好地描述了語音信號的局部平穩性以及整體的非平穩性，是一種描述語音信號的理想模型。

2.3.4　智能語音識別

此處採用的關鍵字識別系統爲基於連續語音識別（LVCSR）的關鍵詞識別系統，如圖3所示，使用這種結構適用於連續語音關鍵詞識別系統：語言經過連續語音音節識別器後，產生相應的N-Best詞格或音節網格，然後使用關鍵詞搜索算法對網格進行關鍵詞搜索。其過程可以大致分成三步：第一步，搜索語音基元，也就是說通過這次搜索得到輸入語音對應的拼音序列。通過連續解碼，可以得到一個N-Best音節序列或者音節的網格。第二步，針對電視機終端功能模塊選擇不同的關鍵詞表。第三步，根據上一步得到的音節序列和關鍵詞詞表對照，進行關鍵詞的搜索，得到假象命中（可能成爲關鍵詞的詞）。第四步，根據其他知識源分析第三步得到的假想命中的置信度，給出關鍵詞識別的結果。第五步，對第四步輸出的關鍵字結果進行智能處理，根據特定的電視機系統功能模塊給出最終的輸出結果。

    3.電視機智能語音識別處理軟件流程

    3.1　錄音檢測

    電視機智能語音識別處理流程圖如圖4，在需要使用語音設別時，首先需要按下錄音鍵，這個時候系統會檢測網絡是否連接和麥克是否可以正常使用，如果其中有一項檢測失敗，系統不會做錄音工作，提示檢查網絡或者檢查麥克。

    3.2　錄音處理

    在設備檢測之後，進行錄音，由於系統限制，錄音有時間限制，不能太長。電視機終端把麥克錄下的語音進行預處理和特徵提取，然後再把語音和模塊特徵一起傳輸到雲端服務器，雲端服務器再做細緻的處理，處理之後再把數據傳回終端電視機。

    3.3　智能功能處理

    在電視機終端等待接收數據，在5秒之內沒有接收到數據，視爲time out，數據處理失敗。如果接收到數據後做相應的處理，在雲端就有對各個模塊的關鍵字識別，將傳回的數據再針對相應的模塊做判斷處理。比如在主功能界面，如果語音輸入“shezhi”，系統將進入設置界面。或者在影視界面，如果輸入“halibote”，系統會查找哈利波特這部影片。

    4.實驗應用

    由於電視系統在使用過程中情況比較複雜，通過語音設別的準確率也有一些差異。爲了得到相對準確的數據，測試分幾種情況，一種是在電視系統沒有播放audio的時候和在播放audio的時候，另一種是輸入語音的長度不一致的情況。

    4.1　測試嘈雜環境試驗

    這個測試分兩種情況，一種是沒有播放audio的時候（或者說audio mute的時候），一種是在有播放audio的時候（由於audio播放時分貝不一樣，所以以各種嘈雜環境的綜合值爲主），實驗結果見表1：

4.2　測試改變輸入關鍵字長度試驗

本系統爲智能語音設別，需要做智能分析，通過輸入語音來判斷系統的動作，關鍵是在語音設別的準確性和智能識別處理上，而輸入關鍵字的長度對系統的準確性判斷相當關鍵。本次實驗就是針對長度不一致的輸入做分析，實驗結果見表2：

    從兩個測試來看，系統識別準確率相當高，實驗達到了預期的效果。關鍵是在特殊環境下進行處理時，本系統在識別之後還有關鍵字和智能處理，以達到更好的智能處理。

    5.結語

    該系統採用了高效的語音設別技術和穩定的MIPS硬件平臺爲基礎，軟件設計上以Linux操作系統爲基礎，在原有的智能電視系統上使用雲計算處理語音數據，使之系統處理實時性更高。通過測試表明，該系統能非常準確地判斷語音輸入，數據處理速度快，系統穩定性高。此係統達到了在電視系統中使用智能語音設別的功能，這樣通過語音操作，大大提高了系統的可操作性，使之使用方便，更加智能化。

瀏覽《中國高新技術企業 12年7月上》原版雜誌