關於自然語言處理的幾個片段

 <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />

    我所希望的工作,基本上就是自然語言處理了。只是這個方向上,我需要學習的還非常的多。目前我在看些專業書籍;但把以前的幾個鏡頭連一連,覺得還是很有意思的。

 

                                        一,關於分詞的一篇短文

    我也測試了一下,是以前的一篇文章的首段,很明顯的個人風格。如下:

 

讀萬卷書,行萬里路,便是今生的兩個願望吧。

讀書,算是舊習;大學已過多半,一回首,除了師友歡顏,東湖碧波,便是那一冊冊的書了。可是計算機專業,比不得其他,書也頗是個花費。所以收拾收拾,列個單子,給癡書的夥伴一個參考;然而,我可不是在做廣告呀~得說明如下:

 

    海量分詞演示的結果如下:

 

萬卷 萬里 便是 今生 兩個 願望

 讀書 算是 舊習 大學 多半 一回 除了 師友 歡顏 東湖 碧波 便是 一冊冊 可是 計算機 專業 不得 其他 花費 所以 收拾 收拾 單子 夥伴 一個 參考 然而 廣告 ~ 說明 如下  

 

    大部分還是不錯的。但看“一回首”,這是個最關鍵的,因爲“回”處的歧義最大,前後都可爲詞;此處我的意思當然是“回首”了,可很遺憾。

    分詞雖是個難點,但我覺得不能分開來看,來強調分詞。同一段文章,我用聯通國際即時翻譯翻譯成英文,效果如下:

 

     It is two hopes of this life to read ten thousand books and walk ten thousand li. Study and can be regarded as old to practise; University already too much halves, turn one's head at one, at teachers and friends joyous faces, East lake and bluish waves are books of that volume. But the speciality of the computer, does not win the others than, the book is quite a piece of cost. It tidies up it arranges pieces of list give silly the one of partners of book consult; However, I am not advertising but must prove as follows :

Time:10.428secs

 

    對語義塊和句式的判斷,還是比較糟糕的;但從turn one's head at one看來,“一回首”還是給斷對了:)。如果用同樣的服務器把這段英文翻譯成漢語,天哪!都不認識了!如下:

 

二個希望的要讀1萬本書並且走1萬毫克分子的這幾次生活的研究並且可能被當作當時老練習; 已經的大學太多兩半, 轉動一個人頭在一,在教師和朋友,充滿快樂臉,東部湖和帶藍色波是那捲的書。 但是計算機的專業,與比,書是相當不錯的費用比,不要贏得其他。 整理安排的碎片目錄給傻書的合夥人中的那個商議; 但是,我不是廣告,但是必須證明如下:

 

    這種處理結果,讓我覺得這條路還長着呢。大家以爲呢?

    另外,我是一個大四的學生,來海量科技還有個不請之請。我想深入的學習自然語言處理的知識,公司的前輩們可否給介紹幾本書?非常感謝!

 

                                                二,關於HNC的反面評論

    1,我也看過HNC理論的書,不過不太認同“概念符號假設”,實際上我看不出來HNC同喬姆斯基的生成語法學及其弟子們演化出的生成語義學有什麼大的區別。指望HNC去解決自然語言理解問題基本上是不太可能的,特別是對東方語言來說。另外一點就是HNC及其所承襲的喬姆斯基系理論,都沒有考慮語言習得和語言的演化。從語言變化的角度來看,HNC就站不住,因爲不可能用符號智能的方法來解決完美的概念映射的自學習。所以我認爲還是基於語料統計的連接主義的方法才能最終解決NLU問題。只可惜現在HMM方法不能很好的表現語言的結構,使語料庫方法停止不前。XCOOL

    2 HNC只是一種學說而已,走的是基於規則的NLP老路,而這條路被證明無法處理大規模真實文本。黃先生的特點是不關心國際國內語言處理的主流技術,一心帶弟子搞玄妙的東西。由於其理論的缺陷,HNC不可能出現什麼可以供demo的東西,即使出了產品或者可供demo的東西,也無法達到較好的性能。 請初學者一定要小心。chris

    對於評論1,有如下參考意見,是晉耀紅先生通過Email與我解答的:

    "關於網友的觀點,確實是代表了很多人的看法。但HNC和喬姆斯基的生成語法學倒是有本質的不同,後者顧名思義關注的是語言的生成,而前者關注的是語言的理解,理解和生成是自然語言到語言概念空間的映射和反映射的過程,理解的重點是語義關聯性(是否能正確理解),生成的重點是語法的規範性(生成的句子是否合乎語法)。"

 

    "關於“語言習得和語言的演化”,則是語言的歷時性,是語言學者關心的問題,而我們現在的焦點是讓計算機達到一個小學生、中學生的水平,還不敢奢望這個層次。你如果問一個小學生,什麼是“語言的演化”,恐怕得不到答案,同樣,就計算機目前的水平,也不要要求計算機做到。"

   "以上觀點,僅供探討。"

 

       至於評論2,就不談了。現在對於HNC來講,還有相當多的理論部分正在開創當中,還沒有完成。而相應的產品化工作,也剛開始。理論本身有多大的缺陷,當然還得檢驗,還得不斷完善。我卻真心的希望,HNC團隊能再接再厲,勇往直前。

 

                                                        三,最後的話

       我相信,這項工作雖是萬難,但有志之士也是願意一攀的。

        讀過黃曾陽先生一首詞,覺得很好,就放在最後:       

臨江仙

勝券在中華

 

計算語言誰主事?

千年老叟當家。

統計神功衆口誇。

廿年熱望後,

智者嘆無涯。

 

雖是一層窗戶紙,

盡遮真理光霞。

撕開一角激驚訝。

莫聽悲觀論,

勝券在中華。

    其實學術上的問題,技術上的問題,無論大家的意見如何,流派如何,我們可以進行爭論,但我真心祝願,大家都能在自己的崗位上,辛勤勞作。我們就不信,對於自然語言處理,勝券竟不在中華!

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章