1.基礎概念
自然語言處理(Nature Language Processing,NLP)是一門融合了計算機科學,人工智能以及語言學的交叉學科。
2.研究目標
通過機器學習等技術,讓計算機學會處理人類語言,乃至實現終極目標——理解人類語言或人工智能。
3.自然語言的處理層次
-
語音、圖像和文本
自然語言處理系統的輸入源一共有3個,語音,圖像和文本,但前兩者存儲的信息總量沒有文本多,所以需要先轉換爲文本再處理,轉換分別稱爲語音識別(Speech Recognition)和光學字符識別(OCR)。
-
詞法分析
主要任務是將文本分隔爲有意義的詞語 (中文分詞),消除每個詞語的歧義(詞性標註),再識別出一些特殊的專有名詞(命名體識別)。
-
信息抽取
詞法分析之後,文本已經呈現結構化趨勢。顯示爲有意義的單詞列表。根據單詞與標籤,我們可以抽取出一部分有用的信息,從簡單的高頻詞到高級算法提取關鍵詞。
-
句法分析
詞法分析只能得到零散的詞彙信息,計算機不知道詞語之間的關係。句法分析的目標就是,得到句子中詞語之間的關係。
-
語義分析與篇章分析
相對於句法分析來看,語義分析側重於語義而非語法,它包括詞義消歧(確定一個詞在語境中的含義)、語義角色標註(標註句子中謂語與其他成分的關係),語義依存分析(分析句子中詞語之間的關係)
4.自然語言處理的流派
-
基於規則的專家系統
設計專家針對需求而設計許多規則組成的系統,比較死板僵硬與不穩定。
-
基於統計學的方法
收集製作
語料庫
,讓機器根據語料庫自動學習這些規則(與機器學習相結合)
5.總結
機器學習是人工智能的子集,而NLP則是人工智能與語言學,計算機科學的交集。這個交集雖然小,它的難度卻很大。爲了實現理解自然語言這個宏偉目標,人們嘗試了規則系統,並最終發展到基於大規模語料庫的統計學習系統
。