NLP概述及流派

原創

2020-06-24 23:21

自然語言處理（Nature Language Processing，NLP）是一門融合了計算機科學，人工智能以及語言學的交叉學科。

通過機器學習等技術，讓計算機學會處理人類語言，乃至實現終極目標——理解人類語言或人工智能。

語音、圖像和文本

自然語言處理系統的輸入源一共有3個，語音，圖像和文本，但前兩者存儲的信息總量沒有文本多，所以需要先轉換爲文本再處理，轉換分別稱爲語音識別(Speech Recognition)和光學字符識別(OCR)。
詞法分析

主要任務是將文本分隔爲有意義的詞語 (中文分詞)，消除每個詞語的歧義(詞性標註)，再識別出一些特殊的專有名詞(命名體識別)。
信息抽取

詞法分析之後，文本已經呈現結構化趨勢。顯示爲有意義的單詞列表。根據單詞與標籤，我們可以抽取出一部分有用的信息，從簡單的高頻詞到高級算法提取關鍵詞。
句法分析

詞法分析只能得到零散的詞彙信息，計算機不知道詞語之間的關係。句法分析的目標就是，得到句子中詞語之間的關係。
語義分析與篇章分析

相對於句法分析來看，語義分析側重於語義而非語法，它包括詞義消歧(確定一個詞在語境中的含義)、語義角色標註(標註句子中謂語與其他成分的關係)，語義依存分析(分析句子中詞語之間的關係)

機器學習是人工智能的子集，而NLP則是人工智能與語言學，計算機科學的交集。這個交集雖然小，它的難度卻很大。爲了實現理解自然語言這個宏偉目標，人們嘗試了規則系統，並最終發展到基於大規模語料庫的統計學習系統。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.