關於自然語言計算機處理的幾點思考

一、語言和智能
  利用人造物來模仿人類某些智能行爲的思想,可以上溯到16、17世紀。語言作爲反映人類智能行爲最重要的特質和智能的外化,長期以來一直被人們認爲是認識和揭開人類智能之謎的一把鑰匙。早在計算機問世以前,人們就力圖通過計算的或機械的方式來解決只有人才能完成的某些語言處理功能。本世紀40年代計算機作爲擴展人類智力的工具問世之後,第一個在人文領域應用的項目——機器翻譯——也是與語言有關的。這絕非偶然,而只是人類在這一領域研究探索的必然結果。通過計算機來模仿人類語言處理能力的努力,在計算機科學和語言學中都產生了專門的分支:自然語言處理和計算語言學。二者的本質是基本相同的,區別可能僅僅在於自然語言處理更注重實踐,而計算語言學較重視理論。也可以說,計算語言學是建構自然語言處理系統的理論基礎,本文爲方便起見,在使用時對此術語不作區分。應該說,人們利用計算機處理自然語言幾十年來,已取得了一定的成績,這些成果反過來對於人類瞭解自己的語言也有極大的幫助。但是其總的進展不容樂觀,還有許多問題有待於解決,還有許多的認識需要明辨。爲了能夠更好地解決這一問題,認識到其癥結所在,我們有必要開闊眼界,從多角度、多學科去研究、思考這一問題。 
  人工智能是利用計算的思想和方法來研究智能的學科,換言之,人工智能是利用計算機等人造物對人類智能行爲的仿真研究。目前我們對人類智能的機理還不是很清楚,這便帶來對這種行爲仿真的困難。人是語言的動物,語言是人區別於其他動物的特徵之一,也是人類表達知識、傳遞知識和交流思想的最重要工具,或者說語言是人類最明顯的一種智能行爲。因此有的學者提出了“對語言的解析過程就是對人類本身的解剖過程,是對人類智能機理的分析和認識過程"這樣一種看法。自然語言處理作爲人工智能領域最有意義、同時也是最困難的分支,多年來吸引了衆多的研究者們。爲了仿真人類的語言處理能力,我們有必要對語言現象作本質的理解,按照我們的理解,一個沒有語言學理論作爲建構基礎的自然語言處理系統很難成爲真正意義上的對人類語言處理機制的仿真系統。但是在仔細閱讀、分析了大量的語言學及其他相關學科的文獻後,我們發現問題不是如此簡單,它涉及到大量哲學、邏輯學、心理學等學科。對這一問題的思考,只能將它放入人類認識自己的歷史長河中去考慮。
  語言和人類思維有着密切的關係,這一點已被大量的有關領域研究所證實。在某些學者看來,語言不僅僅是人類交流知識的工具,而且是知識的主要載體,甚至也是人類的知識界定器。在這裏我們不可能討論這種說法是否過於強調了語言對於人類的重要性,但毫無疑問的是對語言的研究有助於對人類智能奧祕的破譯。
二、語言是可以計算的嗎
  爲什麼我們認爲計算機可以仿真人類的語言處理機制、乃至人類的整個智能行爲呢?將計算機作爲一種定性的、離散的機器來處理語言材料就必需首先懂得語言的結構及其他特徵,這就要求人們能把語言的結構和其他所需的材料精確地改寫成計算機可以理解的程序和數據結構。顯然這一思想的理論依據可能在於“世界是由大量的離散事實組成的",換言之,有關世界上萬事萬物的知識可以用所謂的“知識因子"來描述。支持這種說法的哲學論斷可以上溯到柏拉圖的有關學說,後又有著名的人物萊布尼茲、休謨、羅素和前期的維特根斯坦搖旗吶喊。由於有了理想的處理離散事實的裝置(計算機)和這些哲學理論的支持,人們便認爲我們可以構造出柏拉圖所探索的那一個世界:一個明晰性、確定性和控制都已得到保證的世界。在人工智能研究者的眼中就是一個由數據結構、決策理論和自動化構成的世界。然而,在還沒有得到完全明晰表達的這種確定性的時候,哲學家自己已經開始懷疑這些說法了,這其中最具傳奇色彩的是維特根斯坦,在其後期的“哲學研究"一書中,他對自己早期在“邏輯哲學論"中所提出的論點進行了深刻的、嚴厲的批判。維特根斯坦的這種轉變是當代哲學研究的“語言轉向"中的重要事件。如果哲學界可以開始脫離基於分解、離散的研究導向,根據這一思想發展起來的人工智能(自然語言處理)界是否也應該反思一下自己呢?
  對於語言的計算機處理而言,首先我們要問的是“語言是可以計算的嗎?”,這是自然語言處理和計算語言學的基本問題。可計算首先需要語言是可分解的,最早觀察到語言的這種特性的是德國學者洪堡特,他說:“語言面對的是一個無限的、無邊無際的領域,即一切可思維對象的總和,因此,語言必須無限地運用有限的手段,而思維的力量和語言的創造力量的同一性確保了語言能夠做到這一點”。事實上,我們今天對於洪堡特這一名言的理解主要是由於喬姆斯基(Chomsky)的推廣,喬氏在此基礎上構建了聞名於世的生成語法理論。從本世紀50年代開始,喬氏及其追隨者推出了許多生成語法理論的變種,其主要的目的之一就是限制生成語法過強的生成能力。由此,我們可以說,語言可以通過有限的規則來生成無限的語句,但我們對於這種生成機理的理解還不是很清楚。我們目前對於語言生成性理解的不足,導致了我們現在構建的自然語言處理系統存在這樣那樣的問題。借用自動化理論中的說法,就是由於對控制對象理解不透,建立的數學模型不能完全反映實際情況,從而導致系統精度下降。正如我國機器翻譯專家劉涌泉先生一篇文章標題所說的那樣,“機器翻譯歸根到底是個語言學問題”,他的這一句話也適合自然語言處理的其他領域。因爲機器翻譯是集衆多自然語言處理技術於一身的研究領域。 
  雖然喬氏的理論到目前爲止,只是部分證明了語言的可計算性。有趣的是,計劃語言的歷史完全證明了通過有限的語法規則和有限的詞彙是可以產生無限的語言文本的。雖然計劃語言可以證明這一點,但使用它的是人腦,而非電腦。於是,我們有理由說語言是可以計算的,但如何用人造物來仿真其運作機理還有待於進一步的研究探討。
三、語義和“分解”
   如果說,從“分解”的思想我們得到了語言的“可計算性”,它也在一定程度上阻礙了我們對於語言“可計算性”的進一步理解和實際運用。通過有限的規則產生無限的文本,一般而言指的是語言作爲一種符號系統的形式方面,即語言的句法方面。很自然的,人們也將在句法領域有效的“分解”思想用到了語言符號的內容方面,即語義領域。在語言學和計算語言學中,“分解"的思想產生了迄今最大的語義處理方法,即“義素"法。集中於語義分解的理論和方法之實質是利用某些任意的“義素"或“語義標式"來描述意義的深層結構。從理論上說,如果有足夠的“義素",就可以描述所有詞的全部意義。然而實際上要確定一個詞究竟含有多少成分,含有哪些成分,是很困難的。這是由“語義"的根本屬性——模糊性和不界定性造成的,除此之外,各人對同一詞的理解不同,很難制訂出統一的語義標式和義素。一個詞形的不同解釋應看作一個連續集上的若干點——意義猶如一塊沒有明顯界限的無縫織物。意義的本質是不可分割的,或者說是不可量化的。對一種不能分割的東西採用分割的辦法來處理,結果可想而知。語言哲學家普特南說:“自然語言中的詞一般說來不能用是與否來劃界限:有些東西顯然可以稱爲樹,有些東西顯然不可以稱爲樹,然而還有一些屬於邊緣情況。更糟的是顯然和邊緣的分界本身也是不清楚的"。這可能說明採用語義分解技術本身是難有出路的,至少是不能完全處理語義問題的。
  由於"義素"分析法所暴露出的問題和缺陷,語義研究的熱點已由過去的“義素"或“成分分析”轉向“語義場"。“語義場"研究的本質就是對人類知識的劃分和表示,而這種認識自然和表現世界的方法,在計劃語言中屢見不鮮。在計劃語言中,這種方案被稱之爲先驗及表意型系統。在上百種表意型方案中,加工最爲細緻的當推英國人 John Wilkins 於 1668 年公佈的方案,他將整個世界劃分爲40個大類。在 40 個大類下,進一步又劃分爲子類和種。爲了表示這些劃分出來的概念,他發明了一種稱之爲 real character 的表意符號。在 Wilkins 之後,出現過許許多多基於人類知識分類的計劃語言方案,表示的方法有數字、圖像、特製的符號等等。Wilkins 希望自己的方案能成爲一種人類通用的知識表達和信息交流工具,但遺憾的是他和其他許多基於知識分類的作者一樣失敗了。順便說一下,Wilkins的以上方案一般被認爲是17世紀人類企圖採用機械的方式來處理語言問題的代表。
  人類對於世界的認識是不斷變化的,這種變化來自於人類本身的進步和社會的發展。隨着時間的推移,人類對知識的分類也是會變化的,我們認爲“語義場"理論可能會解決某些語義方面的問題,但一定是有限的。因爲和義素分析法一樣,也是基於知識是可分解的,是可離散化的基礎之上的。同時計劃語言的實踐證明了這種方法的侷限性。 
四、歧義和知識
  如果我們無法用“分解”的方法來滿意地處理語義問題,這也並不意味着語義是完全不可計算的。實際上,我們說自然語言處理的問題是語言問題,那是由於在自然語言的各個層面均存在歧義問題。用一句並非誇張的話來說,自然語言處理界幾十年的發展歷史就是與歧義鬥爭的歷史。爲什麼這些歧義問題對於人類沒有造成嚴重的問題,但卻讓計算機理解語言的研究止步不前呢?
  歧義作爲影響語言正確理解的最大障礙,理所當然地會成爲計算語言學中語義研究的重點。對於語義的研究導致了計算語義學的產生,它的目的在於研究自然語言語義形式化的理論和方法。狹義說計算語義學是將語義分析看作爲一種演算過程,它通過邏輯的方法處理語義問題,而從廣義上講,計算語義學研究是利用計算機來處理和仿真人類語義處理機制的方法和理論,特別是歧義問題的處理和消解。
  中國計算語言學家馮志偉先生根據歧義結構的特點提出了稱之爲“潛在歧義論(PA)”的理論,該理論能客觀地解釋歧義的結構和歧義的消解過程,PA 比以往有關歧義問題的研究更深入了一步。自然語言本身是充滿歧義的,但它自己也提供了一定的歧義消解手段,否則語言難以成爲人類傳遞和保存知識的重要工具。PA 理論在進一步細化詞類,或者說在詞類中引入語義信息的基礎上,將原有單從句法結構來描述的歧義格式發展到語義層次,這無疑前進了一大步,因爲歧義現象原本就是一種語義層次的現象。一旦涉及到語義,難免會引出一些我們目前還不很清楚的東西,PA理論重視各種句法成分中的語義關係,可以說正是這些語義關係的存在支持着PA理論對歧義問題的新解釋。但是計算機如何理解和採用何種方法去處理這些語義關係,還有待於進一步研究。
  如果承認計算語義學研究是人類語義處理機制的仿真,那麼分析人類對於語義的處理方式和消解過程可能是有益的。人類處理歧義問題的關鍵在於人的大腦中存有大量的知識,這些知識包括句法的、語義的和其他各類常識,利用這些知識人們可以很容易地理解對計算機來說有歧義的語句,正是這些知識在某種程度上支持了PA理論的正確性和可操作性。與人一樣爲了較完美地解決這個難題,計算機必然需要大量的各種知識。由於計算機與人有着極大的不同,知識需顯式表示出來,然而許多知識是模糊的、難於量化的,換言之,尋求適宜的、有效的知識表示方法是利用現有計算資源實現自然語言處理系統的唯一途徑。理論上,我們不難把某些有關外部世界的知識授於計算機,難就難在世上的知識是無窮盡的,而我們還不十分清楚爲了消除歧義,系統究竟需要什麼樣的知識。
  語義的不可分解性和隱含性、歧義問題的複雜性、語言理解的無限性、語義的關聯性、大規模真實文本處理的迫切性等,所有這些因素交織在一起,使得我們必須尋求新的語義處理方法和機制。我們認爲對於有歧義的語句,理解的任務就是從多種結構中選出最適宜的和最可能的結構,注意我們在這裏使用了“適宜”和“可能”這兩個非絕對的詞,目的在於說明在語言理解領域沒有什麼絕對的正確,而只有相對的“可能”。在這種思想的指導下,我們曾經提出過“意義等於它的語境關係的總和”的語義概念和“基於類比原則”的語義處理機制。目前國際計算語言學界頗爲看重的“基於語料庫”的語言處理方法,其本質也是一種從定性到非定性的轉向。這種轉向是否暗合着我們上面所提到的哲學轉向?還有待於時間證明。
  人類處理語言的能力是一種高度的智能行爲,如果把智能理解爲一種運用知識解決問題的能力,那麼構造任何基於知識的人工系統的過程就是收集知識、整理知識和計劃運用知識的策略。以人類現有的理論和技術水平而言,構造一個完全取代人類智能的機器是不可能的。我們認爲現階段比較現實的研究目標是構建一種“人機智能綜合體"來解決一些需要人類知識,但又限於某些原因難以實現的問題。在“人機智能綜合體"中,人和機器(一般爲計算機)能充分發揮各自的長處,共同努力使問題取得最優或可行的解決。這說明構建一種基於“人機合作、互助"的語言自動處理系統的必要性和可行性。於是我們賦予“人是機器"這一名言以新的涵義,人和機器均是欲構建的智能處理系統的組成部分。
  語言和知識具有極強的整體性、關聯性的這一特質,迫使我們在研究自然語言處理系統時,必須對此予以考慮,否則研製出的系統就會先天不足,難以處理衆多複雜的語言現象。語言及其人類語言的產品可以被認爲是人類智能行爲加工、處理的結果,是研究人類智能行爲最大的原始資源。事實上,在人類悠長曆史發展中,語言(及其產品)是唯一看得見的知識載體和最重要的延續人類智能的東西。對於人類具體智能處理機制的無知和此機制本身的不可知性,使得我們只能從智能行爲的產品和外特性着手,去仿真人類智能系統的處理機制。可以將其看做是一種介於白箱與黑箱之間的灰色仿真系統。語言學諸領域和認知心理學中的研究成果可以被認爲是其主要的理論基礎,計算語言學中的許多理論和方法是系統實現的手段。
五、結束語
  綜觀人類對語言的研究可以發現,我們對於語言的認識和研究的深度是與社會的發展密切相關的,是與人類對整個世界的認識息息相關的。即:語言研究是有其時代特徵的。衆多的事實表明我們目前處於一個信息和知識趨於
“爆炸"的時代,這一時期語言研究的特點是語言研究不僅僅考慮人類的需要,而也應該顧及到機器。研究“人機共用"的詞典、語法等便成爲這一時期的語言研究的重點。計算機的普及和國際互聯網的出現,將人類推向一個新的階段。由於人與人之間的虛擬距離已經變的非常接近,人類不能再滿足於傳統的語言交流方式。爲此,如何利用計算機來解決由於它的出現而變得日益嚴重的人類語言交流問題,就成爲擺在許多學者面前的重要任務。遺憾的是,由於計算機的結構和處理問題的方式與人類有着本質的不同,加之我們人類對於自己處理語言的機理尚有許多不清楚的地方,於是雖然我們極力想通過計算機來仿真人的語言行爲,但進展甚微。如果我們不是孤立地看待語言的自動處理問題,而是將它看作人類探索自身過程中的一個環節,我們就會對這一問題有新的認識。本文就是筆者結合其他領域,對語言的計算機處理問題的幾點思考。
 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章