jieba分詞詳解

語音識別中有一項任務就是訓練語言模型,而對於中文的語言模型,需要事先進行分詞。而語音識別中的語言模型還有個特殊的要求,就是語言模型中的所有詞都必須在發音詞典中(也就是說每個詞都要有對應的發音)。因此這就限制了我們不能使用Stanford分詞,哈工大分詞等工具,因爲這些分詞工具分出來的詞有可能不在發音詞典中。現在在語音識別任務中最常使用的是scws機械分詞,和jieba分詞(把hmm分詞選項關了)。經過實際比對,發現使用jieba分詞後訓練的語言模型會比scws好些。

下面我們來介紹下jieba分詞的原理:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章