讀馮志偉老前輩的《自然語言處理與現狀》

寫在前面

很早之前就接觸過馮志偉老先生的一些有關自然語言處理的相關文字,彼時,我還是一個大三的文科外語專業的小羅羅,而此時的我已經冠上了爲“高級軟件工程師”的虛名。當時在直接閱讀相關的文字時,因爲還未有對技術有深入的實踐,對自然語言的處理以及和計算機科學,數學之間的關係並沒有足夠清晰的瞭解。在經歷了最初職場的迷惑和對工程技術的實踐之後,似乎很多曾經腦中模糊的概念,通過了一個個軟件的系統和一行行代碼,都被串到了一起。今天又找了一篇08年,馮志偉老先生在《中國外語》上發表的一篇介紹自然語言處理的文章,重新開始組織腦中散落在各個角落的各種。

關於早期的萌芽

根據馮老先生的闡述,自然語言處理其實在二戰時期,計算機技術出現之前就已經發生了極其重要的萌芽和分支發展。在圖靈剛剛發明計算機的時候,戰爭的慘烈剛剛教了所有人類一堂課。二十世紀40年代到50年代之間,除了當時給世界帶來極大震撼的計算機技術,在美國還有兩個人,在進行着他們的工作:第一項就是喬姆斯基對形式語言的研究工作,另一個就是當時在工作中發展出來的香農的基於概率和信息論模型的研究。在這個時期,其實計算機就已經和自然語言產生了極大的交互,計算機在當時雖然更多的是一種代替人類進行大量重複計算的工具,然而,圖靈自己發明“思維機器”的時候,內心就一直沒有停止對智能,語言,數學之間關係的思考。而衆所周知的圖靈測試,也是在語言媒介的基礎上對計算智能的一種評估而已。也正是圖靈的工作,對後世現代計算機科學產生了直接的推動作用,也延續下去產生了神經元理論等各種計算框架。香農的信息論則在概率和統計的基礎上對語言和計算機語言進行了相當的刻畫。而喬姆斯基在其基礎上,深入的研究直接產生了形式語言的模型框架。在這裏,計算機的計算過程(計算機語言)和自然語言終於得到了統一,被放到了同一個水平進行研究。而其中產生的最重要的上下文無關語法,也在計算機語言的領域各自得到了應有的發展和成長。如果沒有這些,之後產生的編譯器估計也就無法產生,也就不用再提高級編程語言和複雜的計算機系統了。

關於中期的發展

從二十世紀60年代到80年代,自然語言處理,在計算機技術的飛速發展下,也取得了相當程度的成果。二十世紀60年代,法國格勒諾布爾理工大學的著名數學家沃古瓦開始了自動翻譯系統的研製,沃古瓦也是計算語言學的創始人和第一屆主席。在這一過程當中,不同的國家和組織對機器翻譯都投入了大量的人力,物力和財力,人類歷史上第一次可以通過技術嘗試去把不同語言之間隔閡的通天之塔打通,因此大部分人對此應該還是抱着很大的希望的。但是在實際的過程中,機器翻譯系統的研製,遇到了各種問題。這些問題的複雜度也遠遠超過了原來大家的預期,當然,在這過程中,因爲希望解決這一問題,產生了各種各樣的模型和解決方案。雖然,最後的結果並不是都盡如人意,但是卻爲後來的各個相關分支領域的發展,奠定了極其重要的基礎。統計學,邏輯學,語言學,以及後來丘奇的計算理論等等。

關於後期的繁榮

二十世紀90年代之後,自然語言處理的發展進入了相當繁榮的一個時期。在這一階段,有一個重要的東西,誕生了:萬維網在這一時期開始澎湃的生長起來。94年,萬維網協會成立,從此之後,似乎整個世界在一瞬間都被互聯網攻陷了。從此之後,各種學科的發展,尤其是計算機科學的發展,在互聯網的衝擊下,產生了很多原來沒有的計算模型,大數據和各種統計模型開始大行其道。自然語言處理在這段時間,也在大數據和概率統計模型下,得到了飛速的發展,同時也產生了一大批高科技公司,並對其發展起到了不同的推動作用。早期的雅虎搜索,後來的谷歌,中國的百度,大量的基於web的應用和各種社交工具,一切都讓自然語言處理在飛速的發展中。在這個過程中,各種數學算法和計算模型越來越重要,最近剛興起不久的神經網絡,深度學習,各種數據挖掘算法,機器學習等等,都不斷的在消除人和機器之間交流的限制。也許在不久的將來,在互聯網的基礎上,自然語言處理中遇到的問題不再是問題。不同語言的人之間的溝通可以暢通無阻,人和機器之間的溝通可以暢通無阻。

關於未來

在近期的可見的各種技術的發展過程中,似乎人和機器走到了一個相對對立的情形。如果繼續這樣發展下去,很多人開始擔心:機器的智能如果真的實現了類似人類的智能,並遠遠超越了人類,這樣的情況下,人類會不會被自己的發明滅絕呢?或者人們開始和自己的機器人情侶約會,人類這個種族還會繼續延續麼?

似乎現在一切都不明朗,但是我個人還是抱着樂觀的態度,正如在機器出現之初,人們對機器的噪音,造成的各種意外,以及其他危險的抱怨。現在人類已經無法離開機器,如果這個世界突然沒有了各種機械和電子機器,也許人類都會瘋掉吧。

也希望我可以在這個領域可以繼續下去,繼續發揮我個人的熱量,也許有一天,智能將不僅僅限於人類。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章