機器翻譯的侷限

一、多義性識別上的困難
多義性指的是人們交際中所發出的信息在不同的語境下可以表現出多種不同的意義。這是機器翻譯要解決的最基本的,也是最難解決的一個問題。如,
今天是星期六
對丈夫說,可能表示提醒
孩子對父母說,可能表示這個孩子想放鬆,想要出去玩。
老闆對打工者說,可能表示今天上班算加班。
從疲勞過度的學生口中說出來,可能表示今天向睡個懶覺。
以上所局還可能有更多的例子,但是單單是這些就已經可讓機器爆掉了。機器只能翻譯出來的只有一句這樣的話“今天是星期六”而語言中深層的多一行是不能在機器翻譯中得到體現的。
二、歧義的辨別能力差
這裏主要指的是因結構產生的歧義,我們還是那這個著名的例子來舉例“咬死了獵人的狗”來進行說明。這是個有歧義的詞組,我們可以認爲“一隻狗咬死了獵人”,還可以認爲“是某些猛獸咬死了獵人的狗”。人在處理這些語言片斷時,是可以消除其歧義的,但是如果換了機器就很是困難了,雖然在現代機器翻譯研究中正在努力解決像這樣的問題,但結果總是不夠令人滿意的。
三、文化領域上的特殊性,機器翻譯表現出來的困難
這種困難的產生是由於源語言和目標語言所在國家的文化信仰的不同導致機器翻譯在處理語言上的困難。例如,關於親屬詞,就拿英語和漢語作比較,英語中不管是弟弟還是哥哥,還是什麼堂兄或堂弟,都稱爲“brother”由漢語翻譯成英語還好,但是若由英語翻譯成漢語就是有些困難了。還有中國中的岳父、岳母也可以稱作爸、媽。漢對英的機器翻譯就會遇到麻煩的。
面對上述種種機器翻譯帶來的困難,研究人員都在進行着艱難的攻關戰。也有了一定的成果,但如果要通過機器翻譯獲得高質量的論文則需要以後很長時間的科學家們的探索,目前一些機器翻譯所採用的主要策略有:
一、在限定的領域內進行翻譯
這種方法也可以成爲是“子語言法”,這種方法只希望在狹隘有限的領域獲得高質量的譯文。實際上,現在許多翻譯系統屬於這個這一類型。這種方法已經取得了良好的成果。
二、利用受限語言作爲輸入
這種方法是通過對輸入的機器的文本中的詞彙和句法結構的限制來達到理想的翻譯效果。
三、人機交互式機器翻譯
其基本思想是在機器翻譯遇到困難時,通過人爲的干涉來獲得理想的譯文。但這我覺得總不能算是機器翻譯。
在這裏,我不敢妄談什麼機器翻譯的困難的對策。於我自己的觀點,在這裏介紹一些小的想法:
一、引入塞林克的“中介語”假說
這是一種動態的語言的“近似系統”(納姆瑟),我認爲,它可以指導基於實例的機器翻譯中的目標語言和源語言實例進行對齊。可以這樣設想,我們可將目標語言和源語言同時與一箇中間模塊來對齊。這種模塊並不是什麼語言,而是一種基於中間狀態的語言片斷。這些模塊是一種語料庫——一種人們學習外語中的所產生“中介語”現象精加工後的集合。在這個語料庫重視嚴整的語言片斷,它具有處於兩種語言中間地帶的模糊性的特點。或許我們可以叫做機器翻譯中的“洋涇浜”。這種基於“中介語”的對齊應該是很好進行的。這種意見好像類似於中間語言法的翻譯範式,但是有以上的論述可以看出是不相同的。從一定的程度上,可能使機器翻譯的水平提高。但這只是我的一個想法。
二、加強對分詞技術、詞性標註、詞義標註的研究。
這裏主張進行對自然語言進行深一層的具體的描寫。我們主張將語言抽象化,將語言抽象成一個個的客觀的符號,對其意義不加以描述,只是用客觀的描寫。或許可以以語義爲基礎將符號描寫成某種變體,就像因爲描寫一樣。比如說,“快”有多個義項,將“快”本身抽象成一個與意義和思維毫無關聯的符號,將在不同語境的多個義項設成其變體,進行組合。當然這是基於條件的。或許丹麥的哥本哈根學派的語言主張會對我們會有所啓示。
三、增強語料庫功能,開放語料庫,實現語料庫共享。
我們可以將語料庫分爲各個小的子語料庫,比如將小的子語料庫分爲政治、軍事、經濟、科技等等。在按照特定的語言對譯進行歸類。這看起來是個大項目,但是聯合協作,個個語料庫相互對外開放是有可能實現的。這種開放的語料庫對機器翻譯中的語料庫的建設有益的。
以上簡單的提到了關於機器翻譯的發展、現狀、困難、及對策,其中也有些自己的想法,也許不太合適。但總之我們要對機器翻譯應該抱有希望,在以後的信息處理,微電子技術的發展,以及相關的如,認知心理學,語言學,哲學,文化研究等學科的發展,機器翻譯獲得全面的成功是有可能的,但必須認識到,這要經過幾代人的努力!
文章引用自:
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章