CH3-NLG的評價

1. NLG的自動評價方法

大多NLG的評價方式是一種基於詞重疊的評價方法,如BLEU,ROUGE,METEOR,F1等,但是這些方式針對機器翻譯這種開放性不是那麼強的NLG應用,表現尚可,但是開放性越強,評價方法越糟糕,比如在摘要生成、故事寫作上,直接用這些方法就不是很合適。

這裏給出兩篇論文的例子說明基於詞重疊的評價在對話系統上並不好

1.1 論文-如何不對你的對話系統進行評價

下圖來自論文《How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation》

這裏對比了三種自動評估和人工評估在不同對話數據集上的結果差異。其中最左邊橙色框圖的是基於詞重疊的(這裏用了BLEU-2,中間的是基於詞向量的,最右邊的是兩組人工評價。

可以看到機器評價和人工評價結果相差巨大,而同樣是人工評價的結果就比較一致。說明機器評價方法不好。

1.2 論文-我們爲什麼需要新的NLG評價方法

另一個例子來自Why We Need New Evaluation Metrics for NLG

這篇文章提出很多不同的評價方法

1.2.1 自動評價方法

1.2.1 基於詞的評價方法(word-based metrics,簡稱WBMs )

NLG評估借用了相關領域的一些自動評價方法,例如機器翻譯、摘要生成或圖像字幕生成,這些領域將系統生成的輸出文本與人類生成的參考標準進行比較,得分越高證明結果更像人寫的。WBM是一類方法,按照評價方法出發點的難易程度又可以繼續往下劃分:

  • 基於詞覆蓋的評價方法(Word-overlap Metrics,簡稱WOMs)包括:TER,BLEU,ROUGE,NIST,CIDER,METEOR
  • 基於語義相似性(Semantic Similarity,簡稱SIM

1.2.2 基於語法的評價方法(Grammar-based metrics ,簡稱GBMs)

文本首次提出利用GBM去評價句子粒度的NLG結果。和WBM不同的是,這種評價方法不依賴參考答案,而是更關注生成結果可讀性、正確性。

  • 可讀性可用Reading Ease,簡稱 RE分來衡量,得分越高證明句子越容易讀,相關的方法還有很多,我這裏直接引用原文內容了:

We also consider related measures, such as characters per utterance (len) and
per word (cpw), words per sentence (wps), syllables per sentence (sps) and per word (spw), as
well as polysyllabic words per utterance (pol) and
per word (ppw). The higher these scores, the more
complex the utterance.

  • 語法性 這裏統計的是拼寫錯誤misspellings (簡稱msp),和一個[斯坦福分詞器](http://nlp.stanford.edu/software/
    parser-faq.shtml) 的打分結果parsing score (簡稱prs)msp值越小,句子語法越可能是正確的;prs值越小,說明句子存在的語病越多。

1.2.2 人工評價方法

生成任務類似於連詞成句,給定Meaning Representations (簡稱MR),生成一個類似於Reference的話 :

MR: inform(name=X, area=X, pricerange=moderate,
type=restaurant)
Reference: “X is a moderately priced restaurant in X.”

每類生成模型都選擇兩個生成結果,讓標註人員從三個方面進行李克特量表評分:

  • 信息量 生成結果是不是覆蓋了所有已給信息?
  • 自然度 人類會寫出這樣的句子嗎?(其實是在衡量像不像人寫的)
  • 質量 從流暢度和語法角度看,這個句子怎麼樣?

爲了減小誤差,不僅待標註的句子是隨機給出的,連標註人員也是通過IP地址隨機選的,而且要求標註人員的母語必須是英語,每人每次最多標註20條句子。

李克特量表(Likert scale )

來自百度百科的解釋:

李克特量表是屬評分加總式量表最常用的一種,屬同一構唸的這些項目是用加總方式來計分,單獨或個別項目是無意義的。它是由美國社會心理學家李克特於1932年在原有的總加量表基礎上改進而成的。該量表由一組陳述組成,每一陳述有"非常同意"、“同意”、“不一定”、“不同意”、"非常不同意"五種回答,分別記爲5、4、3、2、1,每個被調查者的態度總分就是他對各道題的回答所得分數的加總,這一總分可說明他的態度強弱或他在這一量表上的不同狀態。

1.2.3 人工評價和自動評價的結果相關情況

利用斯皮爾曼相關係數Spearman coefficient(用ρ\rho)來衡量。取人工評價的中位數來規避異常結果。使用williams測試衡量相關性之間的顯著差異。下表是在句子粒度的評價中,自動評價和人工評價方法的最佳相關性結果(ρ|\rho|值最大)

從上圖可以得到的結論是:

  • 兩種方法的相關性是和數據集、模型、標註人員本身都是有關的。這與我們最初的假設是不符合的(後續會討論這個問題)
  • 在衡量信息量方面上, WBM的方法和人工評價方法較爲一致,而GBMs的方法在句子質量自然度方面和人工評價更一致。
  • 對人工評價來說,信息量句子質量自然度三者本身關聯性就很強。特別是句子質量自然度(二者斯皮爾曼相關係數達0.81),也進一步表明,這兩類衡量指標都是針對生成句子表面這個角度的。
  • 圖1和圖2則表明,所有WBMs 方法評價結果都是相似的,他們之間關聯性很強,而對於和他們相關性較高的人工評價方法,人工評價方法之間也無顯著差異。而GBMs的不同方法則顯示出巨大的差異。
  • WBMGBMs在不同模型、不同數據集上的表現也是不一樣的。圖1和圖2可以看出,如果選擇TGEN模型,和BAGEL數據集,人工評價方法和字段評價方法結果還是蠻一致的。

2. 講義觀點

2.1 自動評價

我們目前沒有一種通用的自動衡量得到方法,但是我們可以細化衡量維度:

  • 流暢(compute probability w.r.t. well-trained LM) – 不理解
  • 正確的風格(prob w.r.t. LM trained on target corpus)–不理解
  • 多樣性(稀有詞的使用、n-gram結果的唯一性)
  • 和輸入的相關性(可以衡量句子的語義相似性)
  • 簡單的比如句子長度、詞在句子中的重複情況
  • 特定任務有自己的評價指標,比如對摘要生成來說需要衡量壓縮率

2.2 人工評價

我們總是把人工評價作爲標準,可是這不僅費時費力,而且也並不一定保證結果是對的。因爲人在進行標註時,非常容易收到外界影響,比如:

  • 不一致

  • 可能不合邏輯

  • 注意力不集中

  • 曲解問題

  • 無法解釋他們爲什麼會有這種感覺

2.3 論文-對話系統中哪些可變量會影響人們的評價標準

這篇論文很有意思,作者認爲,一個好的對話一直處於一個平衡狀態:回答的簡單還是詳盡、繼續聊當下這個話題還是換一個、是提問還是回答。這些其實都是一個閒聊型會話的幾個屬性:重複性,特異性,相關性和問答,可以由模型控制的(基於條件的訓練和基於權重的解碼),雖然我們都以人工方法來衡量對話聊得好不好,但是決定人類對整體對話質量判斷的因素幾乎完全沒有被探索過。

於是,作者定義了八個衡量維度,其中有四個是可以由模型學習控制的,我們稱之爲低級別模型屬性。如下圖所示

實驗發現:

  • 生成句子中的重複詞極大地影響着人工判斷
  • 更多的提問提高了吸引力
  • 特異性則提高吸引力、趣味性、傾聽力
  • 所有的評價維度中吸引力(如enjoyment)最容易去最大化
  • 所有的評價維度中像人(如圖靈測試)是最困難的
  • 但是像人並不意味着對話質量好,而且人類也不是最會聊天的,他們往往不會聊天、話題終結者、不善於傾聽或者提問太少。

2.4 一些新的NLG評價思路

  • 語料粒度的方法(Corpus-level metrics)如果對於測試集每一個樣本模型都給出相同的回覆,那麼這個就要被懲罰
  • 評價方法需要綜合考慮多樣性和安全性(不會答錯)
  • 想一些方法,讓人和機器去聊天,免費收集相關的反饋
  • 先有一個可以區分人工和機器文本的分類器,然後把NLG模型生成的文本輸進去,看分類器能否識別。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章