序列標註 | (9) 中文分詞評價指標(續)

上一篇博客我們介紹了中文分詞的一些評價指標,包括Precision、Recall、F1-score、OOVRecall和IVRecall。本篇博客我們將繼續介紹一些其他的評價指標:柔性評測方案。

由於中文分詞還沒有形成一個公認的分詞標準,服務於不同目的的分詞系統會對分詞單位有不同的要求,進而導致同一文本可能被不同的人劃分爲幾種不同的分詞結果。爲了能夠對各類分詞系統進行公正的評價,可以使用一種柔性的評測方案[1],而不是使用閉集測試方法的準確率,召回率等完全匹配的評測指標。具體的,我們首先將分詞工具預測的分詞結果劃分爲四種情況:

  • 一致:預測的詞語和標準集詞語完全一致,該情況反映了分詞工具和標準集定義的分詞粒度一致性;
  • 拆分:標準集詞語等於多個連續的預測詞語,如:標準集詞語“魯班”會被工具1拆分爲姓和名“魯/班”。拆分情況通常發生於標準集的分詞粒度大於分詞工具定義的粒度,並不是嚴格意義的分詞錯誤;
  • 合併:預測詞語等於多個連續的標準集詞語,如:工具2預測的詞語“放大招”在標準集中是由連續的兩個詞語“放”和“大招”構成。合併情況通常發生於標準集的分詞粒度小於分詞工具定義的粒度,它也不是嚴格意義的分詞錯誤;
  • 衝突:預測詞語和標準集詞語存在邊界衝突。如:工具3會將標準集中“射手”分開,並將“手”和“魯”組合爲一個標準集中不存在的詞語“手魯”,破壞了詞語“射手”和“魯班”的結構,生成錯誤的分詞片段“射” “手魯”和“班”。衝突情況是一種嚴格意義的切分錯誤,衝突比例反映了分詞工具的錯誤率,是衡量一個分詞工具好壞的最主要指標,也是評測分析的重點指標。

在這裏插入圖片描述
將各個分詞工具的分詞結果和標準集進行對比,並統計標準集中詞語的被預測情況,得到上述四種情況的佔比。評測過程以自動評測爲主,主要分析各分詞工具的衝突佔比以及一致性佔比,衝突比例表示分詞工具的錯誤率,一致性比例表示分詞工具和標準集定義的分詞粒度一致性。此外,還可以採用人工評測爲輔,人工評測主要是對“拆分”“合併”結果進行分析,人工評測部分拆分合並結果,會發現拆分合並的情況主要是由於粒度定義不同導致,而非“硬錯誤”,所以這兩種情況的佔比並不是關注的重點。

[1] 楊爾弘, 方瑩, 劉冬明等. 漢語自動分詞和詞性標註評測[J]. 中文信息學報, 2006, 20(1): 46-51.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章