如何從零建立一個詞表

背景:當我們拿到一份語料,但是卻沒有分詞的詞表,我們如何找到一個最佳的詞表,能夠對這份語料是最匹配和適應的呢?

解決方案:

首先,我認爲詞的定義是指,對語料能做語義上最合理的劃分。

這裏會有一種矛盾,如果詞數量越多,那麼在統計ngram文法時,文法數就越多,對語料的統計頻次就越稀疏,可信度就會下降;

而如果走另一個極端,直接按字來劃分語料,那文法數是會減少,統計頻次也足夠多,但是每個文法跨越的文字範圍又太短,例如5元文法,只能看到前面四個字而已。

所以,我們需要找到一個方案,能夠在字的基礎上,逐步迭代形成最後的合理的詞表:

1.把語料按字切分

2.根據字與字之間的粘合度EMI值,進行評估,得到候選詞表。

 

目標:用更少數量的詞,同時每個詞儘可能長,來表達儘可能多的文本。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章