NLP概述及流派

1.基礎概念

自然語言處理(Nature Language Processing,NLP)是一門融合了計算機科學,人工智能以及語言學的交叉學科。

2.研究目標

通過機器學習等技術,讓計算機學會處理人類語言,乃至實現終極目標——理解人類語言或人工智能。


3.自然語言的處理層次
  • 語音、圖像和文本

    自然語言處理系統的輸入源一共有3個,語音,圖像和文本,但前兩者存儲的信息總量沒有文本多,所以需要先轉換爲文本再處理,轉換分別稱爲語音識別(Speech Recognition)和光學字符識別(OCR)。

  • 詞法分析

    主要任務是將文本分隔爲有意義的詞語 (中文分詞),消除每個詞語的歧義(詞性標註),再識別出一些特殊的專有名詞(命名體識別)。

  • 信息抽取

    詞法分析之後,文本已經呈現結構化趨勢。顯示爲有意義的單詞列表。根據單詞與標籤,我們可以抽取出一部分有用的信息,從簡單的高頻詞到高級算法提取關鍵詞

  • 句法分析

    詞法分析只能得到零散的詞彙信息,計算機不知道詞語之間的關係。句法分析的目標就是,得到句子中詞語之間的關係

  • 語義分析與篇章分析

    相對於句法分析來看,語義分析側重於語義而非語法,它包括詞義消歧(確定一個詞在語境中的含義)、語義角色標註(標註句子中謂語與其他成分的關係),語義依存分析(分析句子中詞語之間的關係)


4.自然語言處理的流派
  • 基於規則的專家系統

    設計專家針對需求而設計許多規則組成的系統,比較死板僵硬與不穩定。

  • 基於統計學的方法

    收集製作語料庫,讓機器根據語料庫自動學習這些規則(與機器學習相結合)


5.總結

機器學習是人工智能的子集,而NLP則是人工智能與語言學,計算機科學的交集。這個交集雖然小,它的難度卻很大。爲了實現理解自然語言這個宏偉目標,人們嘗試了規則系統,並最終發展到基於大規模語料庫的統計學習系統

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章