HanLP — HMM隱馬爾可夫模型 -- 語料庫

BMES => B:詞語開始、M:詞語中間、E:詞語結束、S:單獨成詞
並非所有中文任務都需要分詞
image
語料庫

  • 每行是一篇“文章”
  • 每篇文章用空格分開
  • 語料庫的準確性,嚴重影響分詞結果
  • 理論上,語料庫越大越好

每個字都有一個標識(隱藏狀態),可以根據語料庫得到所有標識

中文分詞就是爲了得到狀態

B M M E S B E S

根據已知狀態進行分詞,即在"E"和"S"後面輸出空格即可

將已分好的詞 得到 每個字的狀態
image

https://www.bilibili.com/video/BV1aP4y147gA?p=3

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章