BMES => B:詞語開始、M:詞語中間、E:詞語結束、S:單獨成詞
並非所有中文任務都需要分詞
語料庫
- 每行是一篇“文章”
- 每篇文章用空格分開
- 語料庫的準確性,嚴重影響分詞結果
- 理論上,語料庫越大越好
每個字都有一個標識(隱藏狀態),可以根據語料庫得到所有標識
中文分詞就是爲了得到狀態
麻 | 辣 | 肥 | 牛 | 真 | 好 | 喫 | ! |
---|---|---|---|---|---|---|---|
B | M | M | E | S | B | E | S |
根據已知狀態進行分詞,即在"E"和"S"後面輸出空格即可
將已分好的詞 得到 每個字的狀態
BMES => B:詞語開始、M:詞語中間、E:詞語結束、S:單獨成詞
並非所有中文任務都需要分詞
語料庫
每個字都有一個標識(隱藏狀態),可以根據語料庫得到所有標識
中文分詞就是爲了得到狀態
麻 | 辣 | 肥 | 牛 | 真 | 好 | 喫 | ! |
---|---|---|---|---|---|---|---|
B | M | M | E | S | B | E | S |
根據已知狀態進行分詞,即在"E"和"S"後面輸出空格即可
將已分好的詞 得到 每個字的狀態