基於詞彙銜接的文檔級擴展機器翻譯評測指標

摘要

本文提出了通過詞彙鏈接的使用來提高文檔級別機器翻譯評估性能的想法。作爲一種實現文字連貫的語言手段,詞彙銜接通過相同或相關的意思的單詞將句子連在一起組成一個有意義的交織結構。機器翻譯與人工翻譯進行了一場比較來表明他們的關鍵區別之一是人工翻譯往往比機器翻譯使用更多的銜接手段。很多方法應用這個特點來評測機器翻譯提交的文檔,其中包括不依賴於參考譯文。實驗結果表明,將這一特徵與語句級評價指標進行融合可以提高與人工評判的相關性。

1 介紹

在過去的十年裏,機器翻譯從自動評價的發展中獲益良多。在某種程度上,它的發展也受限於評價指標的侷限性。大部分精力投入在了評價機器翻譯輸出的質量上,然而到目前爲止仍集中在句子層面上卻沒有足夠的關注於更大的文本結構。尤其體現在具有代表性的機器翻譯評價指標上,比如BLEU (Papineni等人, 2002),METEOR (Banerjee and Lavie, 2005)和TER (Snover等人, 2006),即採用逐句翻譯來或得機器翻譯輸出。文檔級的評測結果通常是簡單句子得分的平均水平。這種以句子爲基礎的評測的一大缺點就是忽略了文檔的結構。如果通過簡單地把獨立的句子放在一起而沒有足夠的跨句子的連接產生,不過多麼精心的翻譯,都不能保證文本的連貫性。其結果是機器翻譯系統通過最優化的這任意幾種度量方式只有非常小的機會產生和人類書寫的一樣自然的翻譯結果。

文檔級機器翻譯的輸出精度對機器翻譯系統的使用者特別重要,因爲相比於每個句子語法的正確性,他們更關心一個文本整體含義的問題(Visser and Fuji, 1996)。在後期編輯中修改它的句子時特別需要確保機器翻譯輸出的整個文檔的質量。總的來說,句子的連通性是影響一個文本易懂的顯著原因。

本文研究凝聚力和連貫性的跨句子的語言特徵,並提出可行的方法將其融入以句子爲基礎的度量標準以支持文檔級別的機器翻譯。在語言工程的國際標準(FEMTI) (King 等人, 2003)的機器翻譯評測的框架中,連貫性被定義爲“在符合整體文本意思的基礎上,讀者可以描述每個句子(或一組句子)的作用的程度”。連貫性的測量必須依靠凝聚力,指的是“在文本中存在意義的關係”(Halliday and Hasan, 1976)。凝聚力是通過句子間互連的語法和詞法的實現。語法銜接是指文本項之間的句法聯繫,而詞彙銜接是通過文本中詞彙的選擇來實現。本文關注的是後者。爲了檢查目前機器翻譯系統在處理這個功能的弱點,首先進行的是在機器翻譯輸出和人工翻譯間詞彙銜接手段的定量比較。然後說明了在文檔級開發機器翻譯評測的詞彙銜接手段的不同方法。

2 相關工作

銜接與連貫性都是在目標文本中很有必要的單語功能。他們很難被鼓勵的評估且必須和其他質量標準相結合,比如適當性和流暢性。機器翻譯後期編輯(Vasconcellos,1989)的調查表明,凝聚力和連貫性是超出許多其他諸如句法結構良好性的較高層次的質量標準。後期編輯往往在修正來改善機器翻譯輸出的凝聚力和連貫性之前首先糾正語法錯誤。此外,正如威爾克斯(1978)1指出,翻譯一個足夠大的樣本同時做到保持連貫性和完全錯誤是極不可能的。銜接與連貫性是適合作爲機器翻譯輸出的整體質量標準的。以往在機器翻譯方面的研究主要集中在特定類型的銜接手段。對於語法銜接,一系列的作品,包括Nakaiwa and Ikehara (1992),Nakaiwa等人(1995),以及Nakaiwa and Shirai (1996),提出瞭解決日本的零代詞的方法並將其集成到日-英轉基機器翻譯系統。Peral等人(1999)通過利用一組豐富的詞彙,句法,形態和語義信息提出了一種叫做人稱代詞代中介語的機制。Murata和Nagao(1993)以及Murata等(2001)制定了一個規則庫以確定日本名詞短語的指稱性質,以便於促進日本的指代消解和在英文翻譯中的文章產生。最近COMTIS項目(CARTONI等人,2011)開始利用跨句子信息進行統計機器翻譯。其工作的階段是有語法手段,比如言語緊張/方向/方式,話語連接詞和代詞,在多語言語料庫中通過手動註釋,希望能夠爲他們的自動貼標機可以集成到機器翻譯模型的發展奠定基礎。

對於詞彙鏈接,根據機器翻譯的翻譯一致性,他只是部分或間接的被處理了。不同的方法在目標詞的選擇提出了保持一致性(Itagaki 等人,2007; Gong 等人,2011; Xiao等人, 2011)。Carpuat (2009)也發現了在整個翻譯中,一個給定的感覺通常是編入一致的方式的人類翻譯的一般趨勢。

然而,只有很少的評價方法明確的針對於一篇文章的質量。Miller 和 Vanni (2001)設計了一種基於修辭結構理論(Mannand Thompson, 1988)的人工的評價方法來衡量一個文本作爲一個整體的可理解性,它是一個文本組織在真實文本中指定的連貫關係的理論。Snover等人(2006)提出通過人工註解來評估後期編輯工作的HTER。但它的自動版本TER and TERp (Snover等人, 2009) 仍然是以句子爲基礎的度量。Comelles等人(2010)提出一系列的基於語篇表徵理論(Kampand Reyle, 1993)的自動機器翻譯評價方法,即產生語義樹將根據其上下文和語法的連接和不同的文本實體爲同一指示物放在一起。除了機器翻譯評測,自動寫作評分程序如E-rater (Burstein, 2003) 還使用了一組豐富的話語功能進行評估。然而,語法分析進程需要這些種語言方法可能會遇到嚴重的語言錯誤,這在機器翻譯輸出中是不可避免的。因此,他們的準確性和可靠性爲符合不同的估值數據難免波動。

詞彙銜接手段在機器翻譯和機器翻譯評測這個兩個方面已經遠遠的被忽視了,即使它是銜接手段的唯一最重要的形式,佔據了接近一半的英語銜接手段(Halliday and Hasan, 1976)。這也是導致保留他們結構的文字對等翻譯的顯著特徵(Lotfipour-Saedi,1997)。文本中的詞彙銜接手段可以表示爲詞彙鏈交接相關實體。處理詞彙鏈用於各種目的有很多種方法,例如Morris和 Hirst(1991), Barzilay和 Elhadad (1997), Chan (2004) ,Li 等人(2007)等等。相反地,語法銜接高度依賴於一箇中文檔結構良好的句法,詞彙銜接是少受語法錯誤影響的。他的計算必須依賴於一個幾乎適用每一種語言的詞庫。在本研究中,一些有或者沒有依賴外部語言資源的詞彙銜接配方將會被用於探討機器翻譯評測的目的。

3 人工翻譯和機器翻譯的詞彙鏈接

本節介紹了機器翻譯和人工翻譯在使用詞彙銜接手段方面的比較。這是一種直覺,作爲優秀的人工翻譯的一部分人工翻譯比機器翻譯使用了更多的銜接手段。用了兩個不同的數據集來確保所述比較的可靠性和通用性。結果證實機器翻譯在處理這個功能的無力以及在機器翻譯評測中使用詞彙銜接的必要性。

3.1數據

這項研究使用了MetricsMATR2008開發集(Przybocki等人, 2009)和多翻譯漢語(MTC)的第四部分(Ma, 2006)。


表1:信息使用的數據集

它們由不同的源語言參考翻譯機器翻譯輸出一起組成。MetricsMATR的數據是從NIST的開放機器翻譯2006評測選中,而MTC4是從TIDES 2003機器翻譯評測中選出。這項研究裏的兩個數據集都包括從充足的評價中被選中機器翻譯輸出的人工評價。表1提供了數據集的整體統計。

3.2詞彙銜接手段的識別

詞彙銜接是通過詞彙的選擇兩個主要類型實現:重複和搭配。重複可在一個連續或漸變集實現特異性,通過在一端重複同一詞項再另一端使用一般的名詞來指向同一所指。在兩端之間是使用的同義詞(或近義詞)和上級。搭配指的是那些共享相同或相似的語義關係的詞項。包括互補性,反義詞,逆向,同等的術語,部分關係,方式詞等等。

在這項研究中,詞彙銜接手段被定義爲文檔中重複一次或多次的實義詞(也就是已被移除的無用詞後的標記),除了那些重複和搭配還包括同義詞,近義詞和上級。重複是指一個文檔中的相同單詞或阻擋物。阻擋物被波特去阻的輔助識別(1980)。

爲了給語義關係分類,WordNet(Fellbaum, 1998)被作爲詞彙資源使用。其中簇的相同意義(即同義詞)組成語意組,也就是同義集。同義詞集在WordNet中是根據語義關係相互連接的。在WordNet中距離爲1的被定義爲同義集對。語義距離的度量也被應用到識別近義詞,也就是廣義上的同義詞,但在相同的同義集沒有被分組。它把單詞組的語義相近度量化成0到1之間的實數(越相近數字越大),其中問題所討論的c1和c2屬於概念(同義詞集),d是從概念到WordNet的全局根節點的最短距離,lcs是c1和c2的最小歸類(也就是最具體的概念始祖)。基於先前研究的經驗觀察,閾值設置爲0.96被認爲是雙方的近義詞(Wong,2010)。

3.3結果

就詞彙銜接手段的頻率而言,機器翻譯和人工翻譯(參考譯文)在MetricsMATR和MTC4數據集中的區別列於表2中。頻率就是機器翻譯/人工翻譯譯文數的平均值。進一步的分類將實詞分解到詞彙銜接手段以及那些不是的實詞的。每種類型的詞彙銜接裝置的數量也已經提供了。總的來說,這兩種數據集提供高度相似的統計數據。人工翻譯比機器翻譯多了4.7%-5.1%的實詞。機器翻譯和人工翻譯的普通實詞(即非詞彙銜接手段)的數目是接近的。實詞的人工翻譯和機器翻譯的差異主要是由於該詞彙銜接手段,其中大多是重複。在數據集中,人工翻譯找到的詞彙銜接手段比機器翻譯多了8.9–11.4%。

 

 


表2:機器與人工翻譯詞彙銜接手段統計(機器翻譯/人工翻譯每個譯文的平均頻率)

進一步的分析調查了每個版本的機器翻譯和人工翻譯的詞彙銜接手段有關下面兩個比率的使用,LC=詞彙銜接手段/實詞,RC=重複/實詞。較高的LC或RC比意味着實詞更大比例被用作詞彙銜接手段。


圖1顯示了在兩個數據集的RC和LC比率。根據人力評估結果, 不同的機器翻譯系統的比例列於每個圖形從左到右的遞增順序。這些值的分佈顯示了兩個數據集之間有很強的相似性。首先,大多數的RC和LC比的是在可觀察到的範圍內,也就是前者在0.25-0.35後者在0.40-0.50,除非一個機器翻譯系統的LC值特別低。其次,與這些機器翻譯相比較,

圖1:機器翻譯與人工翻譯使用的詞彙銜接手段對比

不同的人工翻譯的版本的比率是非常穩定的。特別是在MetricsMATR數據集中四個人工翻譯版本共享相同的RC比0.31。這說明了使用詞彙銜接裝置的典型水平。最後,機器翻譯中的比率低於或最多相當於人工翻譯,這表明它們與翻譯質量的相關性:機器翻譯越好,它們的RC和LC比值越接近在人翻譯。這些結果證實我們的假設,即詞彙銜接手段可以作爲翻譯質量水平的有效代理。

4 文檔機器翻譯評估

作爲語篇層面的特徵,詞彙銜接是對目前主要集中在句子級的評測特徵的很好的一個補充。如表3表述了一個從MetricsMATR數據集選取的例子,包括了兩個機器翻譯系統中僅兩個段落的段文檔的翻譯輸出。與參考譯文的N元匹配是有下劃線的,詞彙銜接手段是


表3:不同質量的機器翻譯輸出的一個例子(下劃線:匹配的n-gram,斜體:詞彙銜接手段)

斜體字,這兩個翻譯洗勇有數量相近的N元匹配所以他們的BLEU評分相近。然而這些分數並不能反應他們在翻譯質量上真正的區別,根據人工評價,第二個翻譯系統要好些。相反地,他們的LC值似乎更準確的表達出了這種變化。第二個輸出的主題也通過詞彙鏈凸顯出來,包括main/important,technology/technologies和achieve/achieving,在兩個句子間創建了一個緊密的結構,這也是體現文本質量的一個關鍵因素。

爲了體現文檔級的機器翻譯評價,LC和RC值可以單獨使用或者融入句子級指標中。前一種方法的優勢在於他不需要依賴任何的參考譯文。LC主要需要一個計算語義關係的詞典,而RC只需要一個形態學上的處理器,比如說詞幹分析器,這兩種都可以用於大部分語言。然而,他的缺點就是他只依賴單一話語特徵可能帶來的風險。雖然詞彙銜接提供了文本的連貫有力的表明,但他是可有可無的,因爲即使沒有任何表面線索,他也可能是連貫的。此外,文檔的質量還體現在他的句子。一個連貫的譯文可能是被誤譯的,另一方面,一個包含了很多句子級錯誤的文本會讓人難以判斷他文本質量的高低。之前一個比較句子級和文檔級機器翻譯評估的研究表明(Wong等人,2011)這兩個層次的機器翻譯輸出的結果評分很不一致,句子級的機器翻譯的輸出的得分很低。在這些方面,如何整合這兩個級別機器翻譯指標是特別值得研究的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章