【NLP】機器翻譯常用評價標準 (BLEU & METEOR)

在評價一個機器翻譯系統時,譯文的質量好壞無法通過文本形式的輸出直觀地體現,所以我們需要採用一些適當的量化標準對機器翻譯的譯文結果進行評價,而這些標準同樣可適用於圖像/視頻描述等領域。

下面分別對兩個常用的評價方法進行介紹:[1]

BLEU

BLEU(Bilingual Evaluation understudy)是一種流行的機器翻譯評價指標,用於分析候選譯文和參考譯文中n元組共同出現的程度,由IBM於2002年提出[2]
對於一個待翻譯句子,候選譯文可以表示爲ci ,而對應的一組參考譯文可以表示爲Si={si1,si2,...,sim}S
n -grams表示n個單詞長度的詞組集合,令ωk 表示第k組可能的n -grams
hk(ci) 表示ωk 在候選譯文ci 中出現的次數,hk(sij) 表示ωk 在參考譯文sij 中出現的次數
BLEU則按下式計算對應語句中語料庫層面上的重合精度:

CPn(C,S)=ikmin(hk(ci),maxjmhk(sij))ikhk(ci)

其中k 標示了可能存在的n -grams序號
容易看出CPn(C,S) 是一個精確度度量,在語句較短時表現更好
所以我們再引入一個懲罰因子BP(Brevity Penalty):
b(C,S)={1e1lslcif lc>lsif lcls

其中lc 表示候選譯文ci 的長度,ls 表示參考譯文sij 的有效長度(當存在多個參考譯文時,選取和lc 最接近的長度)
本質上,BLEU是一個n -grams精確度的加權幾何平均,按照下式計算:
BLEUN(C,S)=b(C,S)exp(n=1NωnlogCPn(C,S))

其中,N 可取1、2、3、4,而ωn 一般對所有n 取常值,即1n
BLEU在語料庫層級上具有很好匹配的語句上表現很好,但隨着n的增加,在句子層級上的匹配越來越差
因此,BLEU在個別語句上可能表現不佳

METEOR

METEOR標準於2004年由Lavir發現在評價指標中召回率的意義後提出[3]
他們的研究表明,召回率基礎上的標準相比於那些單純基於精度的標準(如BLEU),其結果和人工判斷的結果有較高相關性
METEOR測度基於單精度的加權調和平均數和單字召回率,其目的是解決一些BLEU標準中固有的缺陷
METEOR也包括其他指標沒有發現一些其他功能,如同義詞匹配等
計算METEOR需要預先給定一組校準(alignment)m ,而這一校準基於WordNet的同義詞庫,通過最小化對應語句中連續有序的塊(chunks)ch 來得出
則METEOR計算爲對應最佳候選譯文和參考譯文之間的準確率和召回率的調和平均:

Pen=γ(chm)θ

Fmean=PmRmαPm+(1α)Rm

Pm=|m|khk(ci)

Rm=|m|khk(sij)

METEOR=(1Pen)Fmean

其中,αγθ 均爲用於評價的默認參數
因此,METEOR的最終評價基於塊(chunk)的分解匹配和表徵分解匹配質量的一個調和平均,幷包含一個懲罰係數Pen
和BLEU不同,METEOR同時考慮了基於整個語料庫上的準確率和召回率,而最終得出測度

—————————————————————————-

Reference

[1]X. Chen, H. Fang, T.-Y. Lin, R. Vedantam, S. Gupta, P. Dollar, and C. L. Zitnick. Microsoft COCO captions: Data collection and evaluation server. arXiv:1504.00325, 2015.
[2]K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluation of machine translation,” in ACL, 2002.
[3]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.

發佈了30 篇原創文章 · 獲贊 30 · 訪問量 22萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章