如何从零建立一个词表

背景:当我们拿到一份语料,但是却没有分词的词表,我们如何找到一个最佳的词表,能够对这份语料是最匹配和适应的呢?

解决方案:

首先,我认为词的定义是指,对语料能做语义上最合理的划分。

这里会有一种矛盾,如果词数量越多,那么在统计ngram文法时,文法数就越多,对语料的统计频次就越稀疏,可信度就会下降;

而如果走另一个极端,直接按字来划分语料,那文法数是会减少,统计频次也足够多,但是每个文法跨越的文字范围又太短,例如5元文法,只能看到前面四个字而已。

所以,我们需要找到一个方案,能够在字的基础上,逐步迭代形成最后的合理的词表:

1.把语料按字切分

2.根据字与字之间的粘合度EMI值,进行评估,得到候选词表。

 

目标:用更少数量的词,同时每个词尽可能长,来表达尽可能多的文本。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章