句子級BLEU指標平滑技術的系統比較。
BLEU計算方式
參見Bleu淺析
paper概覽
BLEU是n-gram精度的幾何平均值,最初的設計是爲文檔級設計的,因此不需要平滑處理,因爲某些句子至少有4個匹配項。
文章描述了7種平滑技術,使得平滑後的BLEU在句子級評估中表現效果更好。
n-gram記爲n,取值爲1…N,N通常選擇爲4.
下面以smoothing1爲例進行介紹平滑技術。
表示例句在n-gram時的數量;
表示翻譯後結果在n-gram時的數量
smoothing1的做法是 ,if
其中 小正值。
此種平滑方式的BLEU指標在ATOMIC和COMeT中使用。
其他6種平滑技術,參見論文。