jieba分词详解

语音识别中有一项任务就是训练语言模型,而对于中文的语言模型,需要事先进行分词。而语音识别中的语言模型还有个特殊的要求,就是语言模型中的所有词都必须在发音词典中(也就是说每个词都要有对应的发音)。因此这就限制了我们不能使用Stanford分词,哈工大分词等工具,因为这些分词工具分出来的词有可能不在发音词典中。现在在语音识别任务中最常使用的是scws机械分词,和jieba分词(把hmm分词选项关了)。经过实际比对,发现使用jieba分词后训练的语言模型会比scws好些。

下面我们来介绍下jieba分词的原理:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章