在评价一个机器翻译系统时,译文的质量好坏无法通过文本形式的输出直观地体现,所以我们需要采用一些适当的量化标准对机器翻译的译文结果进行评价,而这些标准同样可适用于图像/视频描述等领域。
下面分别对两个常用的评价方法进行介绍:
BLEU
BLEU(Bilingual Evaluation understudy)是一种流行的机器翻译评价指标,用于分析候选译文和参考译文中n元组共同出现的程度,由IBM于2002年提出
对于一个待翻译句子,候选译文可以表示为
BLEU则按下式计算对应语句中语料库层面上的重合精度:
其中
容易看出
所以我们再引入一个惩罚因子BP(Brevity Penalty):
其中
本质上,BLEU是一个
其中,
BLEU在语料库层级上具有很好匹配的语句上表现很好,但随着n的增加,在句子层级上的匹配越来越差
因此,BLEU在个别语句上可能表现不佳
METEOR
METEOR标准于2004年由Lavir发现在评价指标中召回率的意义后提出
他们的研究表明,召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU),其结果和人工判断的结果有较高相关性
METEOR测度基於单精度的加权调和平均数和单字召回率,其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能,如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:
其中,
因此,METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均,幷包含一个惩罚系数
和BLEU不同,METEOR同时考虑了基于整个语料库上的准确率和召回率,而最终得出测度
—————————————————————————-
Reference
[1]X. Chen, H. Fang, T.-Y. Lin, R. Vedantam, S. Gupta, P. Dollar, and C. L. Zitnick. Microsoft COCO captions: Data collection and evaluation server. arXiv:1504.00325, 2015.
[2]K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluation of machine translation,” in ACL, 2002.
[3]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.