什麼是自然語言處理--學習筆記

什麼是自然語言處理

2012年6月30日

21:38

自然語言處理(Natural Language Processing簡稱NLP

人工智能語言學領域的分支學科。在這此領域中探討如何處理及運用自然語言;自然語言認知則是指讓電腦“懂”人類的語言

自然語言生成系統把計算機數據轉化爲自然語言。自然語言理解系統把自然語言轉化爲計算機程序更易於處理的形式。

任務和限制

理論上,NLP是一種很吸引人的人機交互方式。早期的語言處理系統如SHRDLU,當它們處於一個有限的“積木世界”,運用有限的詞彙表會話時,工作得相當好。這使得研究員們對此係統相當樂觀,然而,當把這個系統拓展到充滿了現實世界的含糊與不確定性的環境中時,他們很快喪失了信心。

由於理解(understanding)自然語言,需要關於外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認知,同時也被視爲一個人工智能完備(AI-complete)的問題。同時,在自然語言處理中,"理解"的定義也變成一個主要的問題。有關理解定義問題的研究已經引發關注【http://idea.cas.cn/viewdoc.action?docid=138 】。

實際問題

一些NLP面臨的問題實例:

· 句子“我們把香蕉給猴子,因爲它們餓了”和“我們把香蕉給猴子,因爲它們熟透了”有同樣的結構。但是代詞“它們”在第一句中指的是“猴子”,在第二句中指的是“香蕉”。如果不瞭解猴子和香蕉的屬性,無法區分。

自然語言處理的主要範疇

· 文本朗讀(Text to speech)/語音合成(Speech synthesis)

· 語音識別(Speech recognition)

· 中文自動分詞(Chinese word segmentation)

· 詞性標註(Part-of-speech tagging)

· 句法分析(Parsing)

· 自然語言生成(Natural language generation)

· 文本分類(Text categorization)

· 信息檢索(Information retrieval)

· 信息抽取(Information extraction)

· 文字校對(Text-proofing)

· 問答系統(Question answering)

· 機器翻譯(Machine translation)

· 自動摘要(Automatic summarization)

· 文字蘊涵(Textual entailment)

· 自然語言處理研究的難點

單詞的邊界界定

在口語中,詞與詞之間通常是連貫的,而界定字詞邊界通常使用的辦法是取用能讓給定的上下文最爲通順且在文法上無誤的一種最佳組合。在書寫上,漢語也沒有詞與詞之間的邊界。

詞義的消歧

許多字詞不單隻有一個意思,因而我們必須選出使句意最爲通順的解釋。

句法的模糊性

自然語言文法通常是模棱兩可的,針對一個句子通常可能會剖析(Parse)出多棵剖析樹(Parse Tree),而我們必須要仰賴語意及前後文的資訊才能在其中選擇一棵最爲適合的剖析樹。

有瑕疵的或不規範的輸入

例如語音處理時遇到外國口音或地方口音,或者在文本的處理中處理拼寫,語法或者光學字符識別(OCR)的錯誤。

語言行爲與計劃

句子常常並不只是字面上的意思;例如,“你能把鹽遞過來嗎”,一個好的回答應當是把鹽遞過去;在大多數上下文環境中,“能”將是糟糕的回答,雖說回答“不”或者“太遠了我拿不到”也是可以接受的。再者,如果一門課程去年沒開設,對於提問“這門課程去年有多少學生沒通過?”回答“去年沒開這門課”要比回答“沒人沒通過”好。

當前自然語言處理研究的發展趨勢

第一,傳統的基於句法-語義規則的理性主義方法受到質疑,隨着語料庫建設和語料庫語言學的崛起,大規模真實文本的處理成爲自然語言處理的主要戰略目標。

第二,統計數學方法越來越受到重視,自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。

第三,淺層處理與深層處理並重,統計與規則方法並重,形成混合式的系統。

第四,自然語言處理中越來越重視詞彙的作用,出現了強烈的“詞彙主義”的傾向。詞彙知識庫的建造成爲了普遍關注的問題。

統計自然語言處理

統計自然語言處理運用了推測學機率統計的方法來解決上述,尤其是針對容易高度模糊的長串句子,當套用實際文法進行分析產生出成千上萬筆可能性時所引發之難題。處理這些高度模糊句子所採用消歧的方法通常運用到語料庫以及馬可夫模型(Markov models)。統計自然語言處理的技術主要由同樣自人工智能下與學習行爲相關的子領域:機器學習資料採掘所演進而成。

參考

· 科幻小說中的Universal translator(萬能翻譯機)

· 計算機科學課程列表

· 電腦語言學

· controlled natural language

· 資訊檢索

· 自然語言理解

· latent semantic indexing

· 語言資訊處理學

· 統計自然語言處理

相關鏈結

· 人類語言技術當前發展情況概覽

· 哥倫比亞大學自然語言處理研究組

· 卡內基梅隆大學語言技術研究院

· 斯坦福大學自然語言處理研究小組

· 中文自然語言處理開放平臺

· ACL(美國電腦語言學協會)提供的相關雜誌以及研討會的論文

· 自然語言理解問題研究的材料

[編輯]相關實例

· GATE: a Java Library for Text Engineering

· LTP:語言技術平臺(簡體中文)

· MARF

· Python編程語言的自然語言處理工具包教程

來源:維基百科

http://zh.wikipedia.org/wiki/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86

By Evlis_Zhou

完成時間 2012年6月30日 21:38

發表於2012年7月17日

轉載請註明出處

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章