NLP文本輸出評價方法

BLEU:找出輸出句子與參考句子之間的 n 元語法重疊部分並對(比參考句子)更短的輸出句子施以懲罰的評價方法

NIST:它基於 n 元語法的稀缺性對其進行加權。這就意味着對某個稀缺 n 元語法的正確匹配能提高的分數,要多於對某個常見的 n 元語法的正確匹配。(http://www.mt-archive.info/HLT-2002-Doddington.pdf

ROUGE:它對 BLEU 進行了修改,聚焦於召回率而非準確率。換句話說,該方法看重的是參考翻譯句中有多少 n 元語法出現在輸出句中,而不是輸出句中有多少 n 元語法出現在參考翻譯句中。(http://www.aclweb.org/anthology/N03-1020

Perplexity :該方法借鑑自信息理論領域,通常被應用於語言建模。它可以對學到的與輸入文本匹配的單詞的概率分佈的好壞進行評價。

WER(單詞錯誤率):它是語音識別中常用的評價標準,在給定參考輸入的情況下,可以對輸出序列中的置換(將「the」置換爲「an」)、缺失以及插入的數量進行評估。

F-score該方法通常也叫做 F1,它是準確率(有多少預測是正確的)與召回率(做出了多少可能正確的預測)的平均值。

其他方法則是專爲序列到序列任務而設計的:

STM(子樹評價標準,subtree metric):它對參考翻譯句和輸出翻譯句的句法進行比較,並對存在不同句法結構的輸出進行懲罰。

METEOR 該方法類似於 BLEU,不過它增加了額外的步驟,例如考慮同義詞,並對詞幹進行比較(因此「running」與「runs」會被計算爲匹配)。此外,不像 BLEU 一樣,METEOR 的設計初衷非常明確:用來比較句子而不是語料庫。

TER (翻譯錯誤率):評價將原始輸出轉變爲可接受的達到人類水平的翻譯所需要的編輯量。

TERp(翻譯錯誤率 plus):是 TER 評價標準的一個擴展,它同樣考慮釋義、詞幹以及同義詞。

hLEPOR :是一個爲更好地翻譯土耳其語、捷克語等形態複雜語言而設計的評價標準。此外,它還考慮有助於抓住句法信息的詞性(名詞、動詞等)等其他因素。

RIBES像 hLEPOR 一樣,該評價標準不要求語言英語一樣(形態簡單)。它專門爲日語、中文等更具有信息量的亞洲國家的語言而設計,同時不需要遵循單詞邊界。

MEWR它大概是列表中最新的評價標準了,也是最令我興奮的一種方法:它不要求參考翻譯!(對於沒有大量可用的平行語料的稀缺語言來說,這真是太棒了!)它結合利用了單詞與句子向量(可以抓住句意的一些內容)以及爲翻譯打分的複雜度。

發佈了7 篇原創文章 · 獲贊 4 · 訪問量 7083
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章