台部落nlpgeek

原创圖解N-gram語言模型的原理--以kenlm爲例

常用的N-gram訓練工具有SRILM、IRSTLM、BerkeleyLM和KenLM等。這幾種工具所用的算法思想基本一致，只是在實現細節上有所不同，所以我們只需理解其中一個訓練工具即可。本文以KenLM(號稱速度最快，佔用內

2020-06-14 10:55:54

1

原创 jieba分詞詳解

語音識別中有一項任務就是訓練語言模型，而對於中文的語言模型，需要事先進行分詞。而語音識別中的語言模型還有個特殊的要求，就是語言模型中的所有詞都必須在發音詞典中(也就是說每個詞都要有對應的發音)。因此這就限制了我們不能使用Stanf

2020-06-14 10:55:54

1