什麼是N-gram語言模型

原創

2018-08-24 18:14

N-gram統計語言模型分爲：

1.統計語言模型
自然語言從它產生開始，逐漸演變成一種上下文相關的信息表達和傳遞的方式，因此讓計算機處理自然語言，一個基本的問題就是爲自然語言這種上下文相關特性建立數學模型。這個數學模型就是自然語言處理中常說的統計語言模型，它是今天所有自然語言處理的基礎，並且廣泛應用與機器翻譯、語音識別、印刷體和手寫體識別、拼寫糾錯、漢字輸入和文獻查詢。

2.N-Gram
N-Gram是大詞彙連續語音識別中常用的一種語言模型，對中文而言，我們稱之爲漢語語言模型(CLM, Chinese Language Model)。漢語語言模型利用上下文中相鄰詞間的搭配信息，在需要把連續無空格的拼音、筆劃，或代表字母或筆劃的數字，轉換成漢字串(即句子)時，可以計算出具有最大概率的句子，從而實現到漢字的自動轉換，無需用戶手動選擇，避開了許多漢字對應一個相同的拼音(或筆劃串，或數字串)的重碼問題。 搜狗拼音和微軟拼音的主要思想就是N-gram模型的，不過在裏面多加入了一些語言學規則而已。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

文獻閱讀筆記-ALBERT ： A lite BERT for self-supervised learning of language representations

0. 背景機構：谷歌作者：發佈地方：ICLR 2020 面向任務：自然語言理解論文地址：https://openreview.net/pdf?id=H1eA7AEtvS 論文代碼：暫未 0.1 摘要預訓練自然語言表徵時，

2020-06-18 23:33:01

【NLP CS224N筆記】Lecture 13 - Contextual Word Representations and Pretraining

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-07-07 14:07:57

基於srilm的語言模型訓練簡介（一）

文章目錄一、語言模型訓練二、語言模型打分三、語言模型剪枝四、語言模型合併五、語言模型使用詞典限制一、語言模型訓練 ##功能 #讀取分詞後的text文件或者count文件，然後用來輸出最後彙總的count文件或者語言模型 ##參數

2020-07-06 10:47:00

跨領域遷移的連貫性模型（ACL 2019）

本文爲ACL 2019的論文A Cross-Domain Transferable Neural Coherence Model的讀後感。 1. 論文主旨本文主要是面向跨領域的連貫性建模的相關研究。採用的是一個局部判別模型，可以

2020-07-06 04:27:44

語言模型在大詞彙表上 softmax 計算的改進方法

參考文獻：https://nndl.github.io/old-chap/chap-%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B%E4%B8%8E%E8%AF%8D%E5%B5%8C%E5%85%

2020-07-05 13:43:56

詞向量的維數

詞向量的維數d1一般取20~500之間

2020-07-05 13:43:56

【NLP CS224N筆記】Lecture 1 - Introduction and Word Vectors

本次梳理基於Datawhale 第12期組隊學習 -CS224n-預訓練模塊詳細課程內容參考(2019)斯坦福CS224n深度學習自然語言處理課程 1. 寫在前面自然語言處理( NLP )是信息時代最重要的技術之一，也是人工智

2020-06-25 01:40:40

beam search解碼原理（斯坦福 2014 論文解讀）

論文：https://arxiv.org/pdf/1408.2873.pdf 題目：First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Direct

大数据AI笔记

2020-06-19 16:50:19

文獻閱讀筆記：Unsupervised Cross-lingual Representation Learning at Scale(XLM-R)

文章目錄0. 背景0.1 摘要1. 介紹2. 相關工作3. 模型和數據4. 評測5. 結果與分析5.1 多語言Masked Language Models5.2 跨語言理解的實驗結果5.3 多語言 Vs 單語種GLUE：XLM-R

2020-06-18 23:33:01

【Natural Language Processing】語言模型(Language Modeling)

一、語言模型簡介語言模型用於對特定序列的一系列詞彙的出現概率進行計算。一個長度爲m的詞彙序列{w1,w2,...,wn }的聯合概率被表示爲p(w1,w2,...,wn )。那麼根據鏈式規則可以得到： P(S)=p(w1

2020-06-16 07:33:02

使用KenLM訓練n-gram語言模型（中文）

N-gram語言模型構建KenLM工具使用KenLM構建中文語言模型流程 KenLM工具相比於SRILM訓練工具包，KenLM的誕生更later，訓練速度更快，支持單機大數據集訓練，相關鏈接如下： KenLM開源github K

2020-06-15 09:45:06

在Ubuntu上安裝 SRILM 語言模型工具

翻譯自Blog：Install SRILM on Ubuntu 在Ubuntu上安裝SRILM比在Windows上簡單得多。下載最新版本的SRILM，官方鏈接可能已經失效，github上有srilm-1.7.1版本，將下載的文

2020-06-15 09:45:06

圖解N-gram語言模型的原理--以kenlm爲例

常用的N-gram訓練工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。這幾種工具所用的算法思想基本一致，只是在實現細節上有所不同，所以我們只需理解其中一個訓練工具即可。本文以KenLM(號稱速度最快，佔用內

2020-06-14 10:55:54

jieba分詞詳解

語音識別中有一項任務就是訓練語言模型，而對於中文的語言模型，需要事先進行分詞。而語音識別中的語言模型還有個特殊的要求，就是語言模型中的所有詞都必須在發音詞典中(也就是說每個詞都要有對應的發音)。因此這就限制了我們不能使用Stanf

2020-06-14 10:55:54

ICLR2020論文閱讀筆記reformer: THE EFFICIENT TRANSFORMER

2020-05-13 04:49:11

24小時熱門文章

最新文章

最新評論文章