什麼是N-gram語言模型

N-gram統計語言模型分爲:
1.統計語言模型
自然語言從它產生開始,逐漸演變成一種上下文相關的信息表達和傳遞的方式,因此讓計算機處理自然語言,一個基本的問題就是爲自然語言這種上下文相關特性建立數學模型。這個數學模型就是自然語言處理中常說的統計語言模型,它是今天所有自然語言處理的基礎,並且廣泛應用與機器翻譯、語音識別、印刷體和手寫體識別、拼寫糾錯、漢字輸入和文獻查詢。
2.N-Gram
N-Gram是大詞彙連續語音識別中常用的一種語言模型,對中文而言,我們稱之爲漢語語言模型(CLM, Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配信息,在需要把連續無空格的拼音、筆劃,或代表字母或筆劃的數字,轉換成漢字串(即句子)時,可以計算出具有最大概率的句子,從而實現到漢字的自動轉換,無需用戶手動選擇,避開了許多漢字對應一個相同的拼音(或筆劃串,或數字串)的重碼問題。 搜狗拼音和微軟拼音的主要思想就是N-gram模型的,不過在裏面多加入了一些語言學規則而已。





發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章