【NLP】机器翻译常用评价标准 (BLEU & METEOR)

在评价一个机器翻译系统时，译文的质量好坏无法通过文本形式的输出直观地体现，所以我们需要采用一些适当的量化标准对机器翻译的译文结果进行评价，而这些标准同样可适用于图像/视频描述等领域。

下面分别对两个常用的评价方法进行介绍：[1]

BLEU

BLEU(Bilingual Evaluation understudy)是一种流行的机器翻译评价指标，用于分析候选译文和参考译文中n元组共同出现的程度，由IBM于2002年提出[2]
对于一个待翻译句子，候选译文可以表示为ci ，而对应的一组参考译文可以表示为Si={si1,si2,...,sim}∈S
n -grams表示n个单词长度的词组集合，令ωk 表示第k组可能的n -grams
hk(ci) 表示ωk 在候选译文ci 中出现的次数，hk(sij) 表示ωk 在参考译文sij 中出现的次数
BLEU则按下式计算对应语句中语料库层面上的重合精度：

C P n (C, S) = \sum i \sum k m i n ( h k ( c i ) , max j \in m h k ( s i j ) ) \sum i \sum k h k ( c i )

其中

k 标示了可能存在的

n -grams序号
容易看出

CPn(C,S) 是一个精确度度量，在语句较短时表现更好
所以我们再引入一个惩罚因子BP(Brevity Penalty)：

b (C, S) = {1 e 1 - l s l c if l c > l s if l c \leq l s

其中

lc 表示候选译文

ci 的长度，

ls 表示参考译文

sij 的有效长度（当存在多个参考译文时，选取和

lc 最接近的长度）
本质上，BLEU是一个

n -grams精确度的加权几何平均，按照下式计算：

B L E U N (C, S) = b (C, S) exp (\sum n = 1 N ω n log C P n (C, S))

其中，

N 可取1、2、3、4，而

ωn 一般对所有

n 取常值，即

1n
BLEU在语料库层级上具有很好匹配的语句上表现很好，但随着n的增加，在句子层级上的匹配越来越差
因此，BLEU在个别语句上可能表现不佳

METEOR

METEOR标准于2004年由Lavir发现在评价指标中召回率的意义后提出[3]
他们的研究表明，召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU)，其结果和人工判断的结果有较高相关性
METEOR测度基於单精度的加权调和平均数和单字召回率，其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能，如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)m ，而这一校准基于WordNet的同义词库，通过最小化对应语句中连续有序的块(chunks)ch 来得出
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均：

P e n = γ (c h m) θ

F m e a n = P m R m α P m + ( 1 - α ) R m

P m = | m | \sum k h k ( c i )

R m = | m | \sum k h k ( s i j )

M E T E O R = (1 - P e n) F m e a n

其中，

α 、

γ 和

θ 均为用于评价的默认参数
因此，METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均，幷包含一个惩罚系数

Pen
和BLEU不同，METEOR同时考虑了基于整个语料库上的准确率和召回率，而最终得出测度

—————————————————————————-

Reference

[1]X. Chen, H. Fang, T.-Y. Lin, R. Vedantam, S. Gupta, P. Dollar, and C. L. Zitnick. Microsoft COCO captions: Data collection and evaluation server. arXiv:1504.00325, 2015.
[2]K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluation of machine translation,” in ACL, 2002.
[3]M. Denkowski and A. Lavie, “Meteor universal: Language specific translation evaluation for any target language,” in EACL Workshop on Statistical Machine Translation, 2014.

狂风摆渡Alex

发布了30 篇原创文章 · 获赞 30 · 访问量 22万+

私信关注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【NLP】机器翻译常用评价标准 (BLEU & METEOR)

BLEU

METEOR

—————————————————————————-

Reference

[转帖]使用NMT和pmap解决JVM资源泄漏问题原创

Python实现大麦网抢票的四大关键技术点解析

Python 安装库指令大全

salesforce零基础学习（一百三十八）零碎知识点小总结（十）

一款开源的.NET程序集反编译、编辑和调试神器

关于接口协议，你必须要知道这些！

【2024-05-21】以茶会友

【NLP】機器翻譯常用評價標準 (BLEU & METEOR)

【Python】map、filter、reduce函數簡介

Python下使用OpenCV的配置

【ReLU】Rectified Linear Units, 線性修正單元激活函數

【Eclipse+PyDev+wxPython】wxPython的安裝注意事項&&安裝後Eclipse中仍然報錯問題的解決

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結