未來已來,自然語言處理人機語言交互,你瞭解多少?

自然語言處理(Natural Language Processing 簡稱 NLP)是人工智能領域非常重要的一部分,作爲計算機科學中一門重要的學科,研究它的目的是爲了解決人機對話問題,通俗理解就是讓智能設備理解並生成人類語言。


關注“AI人工智能客棧”回覆關鍵字獲取學習資源

     關注公衆號“AI人工智能客棧”,回覆關鍵詞 
     “python人工智能視頻”
     “人工智能書籍”
     “人工智能發展報告”
     獲得更多資料
     乾貨持續更新中,歡迎關注,歡迎取關。
現在對NLP的研究和處理,一般分爲以下4個方面:

1、把研究問題在語言學上形式化,使之能以一定的數學形式嚴密而規整的表示出來;

2、然後把嚴密而規整的數學形式表示爲算法,使之在計算上形式化;

3、再根據算法編寫程序,使算法可以在智能設備上運行;

4、最後對根據算法所建立的自然語言處理系統進行測評,不斷改進質量和性能來滿足用戶需求;

《從人機交互的角度看自然語言處理》一文中對自然語言處理進行了如下定義:

自然語言處理可以定義爲研究在人與人交際中以及人與計算機交際中的語言問題的一門科學。自然語言處理要研製表示語言能力語言應用的模型,建立計算框架來實現這樣的語言模型,提出相應的方法來不斷的完善這樣的語言模型,根據這樣的語言模型設計各種實用系統,並探討這些實用系統的測評技術。

然而建立自然語言處理模型的實用系統需要不同平面的知識:
  • 聲學和韻律學: 描述語言的節奏、語調和聲調的規律,說明語音怎麼形成音位;

  • 音位學: 描述音位的結合規律,說明音位怎樣形成語素;

  • 形態學: 描述語速的結合規律,說明語素怎樣形成單詞;

  • 詞彙學: 描述詞彙系統的規律,說明單詞本身固有的語義特性和語法特性;

  • 句法學: 描述單詞或詞組之間的結構規則,說明單詞或詞組怎樣形成句子;

  • 語義學: 描述句子各個成分之間的語義關係,這樣的語義關係是與情景無關的,說明怎樣從構成句子的各個成分推導出整個句子的語義;

  • 話語分析知識: 描述句子與句子之間的結構規律,說明怎樣由句子形成話語或對話;

  • 外界世界的常識性知識: 描述關於語言使用者和語言使用環境的一般性常識,例如,語言使用者的信念和目的,說明怎樣推導出這樣的信念和目的內在和結構;

  學術界關於NLP所涉及的知識結構也衆說紛紜,一般而言都包括詞彙學、句法學、語義學和語用學等知識。以上描述的主要是語言學方面的知識,但NLP是一個交叉學科,更是涉及了方方面面的知識領域:

  • 計算機科學: 給NLP提供模型表示、算法設計、計算機實現的技術;

  • 數學: 給NLP提供形式化的數學模型和形式化的數學算法;

  • 心理學: 給NLP提供人類語言行爲的心理模型和理論;

  • 哲學: 給NLP提供關於人類的思維和語言的更深層次的理論;

  • 統計學: 給NLP提供基於樣本數據來預測統計的更深層次的技術;

  • 電子工程: 給NLP提供信息論的理論基礎和語言信號處理技術;

  • 生物學: 給NLP提供大腦中人類語言行爲機制的理論;

NLP的主要研究範圍與方向有以下幾個方面:

1、信息檢索
2、機器翻譯
3、文檔分類
4、問答系統
5、信息過濾
6、自動文摘
7、信息抽取
8、文本挖掘
9、輿情分析
10、機器寫作
11、文本朗讀
12、語音合成
13、語音識別
14、自動分詞
15、詞性標註
16、句法分析
17、自然語言生成
18、信息抽取

語音識別技術的五大難題
難題難點
自然語言理解拆分語句、理解規則
語音信息量大不同對象,同一對象不同時間、態度
發音同音字
語言環境影響重音、語調、語速
噪聲、干擾識別率低

常見的文本主要爲以下3種三種:

  • 自由文本

  • 結構化文本

  • 半結構化文本

自然語言處理的文本一般爲自由文本,對自由文本常見的操作爲:

1、分詞:

我們一般處理的自由文本有中文、英文等,詞爲文本的基本單位,然而分詞當然是NLP中最重要的步驟。分詞算法分爲詞典方法和統計方法,其中基於詞典和人工規則的方法是按照一定的策略將待分析的詞與詞典中的詞條進行匹配(包括正向匹配、逆向匹配和最大匹配)。統計方法是基本字符串在語料庫中出現的統計頻率,典型的算法有HMM、CRF等,其中CRF相比HMM有更弱的上下文無相關性假設,理論上效果更好一些。

英文以空格爲分割符,因此不需要進行分詞的操作(片面看法,特殊情況仍然需要分詞操作),例如一些複合詞也需要識別。

2、詞性標註

對於詞性標註,首先需要定義詞性的類別:如名詞、動詞、形容詞、連詞、副詞、標點符號等等。詞性標註是語音識別、句法分析、信息抽取技術的基礎技術之一,詞性標註是標註問題,可以採用最大熵、HMM、CRF等具體算法進行模型的訓練。在自動問答系統中,爲了提高用戶問題匹配後端知識庫的召回率,對一些關鍵詞進行過濾,包括連詞、副詞對於全文檢索系統理論上可以通過對用戶輸入的查詢條件進行詞性過濾,但由於全文檢索是基於詞袋的機械匹配,並採用IDF作爲特徵值之一,因此詞性標註的效果不大。

3、句法分析

句法分析的目的是確定句子的句法結構,主謂賓、動賓、定中、動補等。在問答系統和信息檢索領域有重要作用。

4、命名實體識別

命名實體識別是定位句子中出現的人名、地名、機構名、專有名詞等。命名實體屬於標註問題,因此可以採用HMM、CRF等進行模型的訓練。基於統計的命名實體需要基於分詞、詞性標註等技術。實體命名定義了五大類型:設施(FAC)、地理政治實體(GPE)、位值(LOC)、人物(PER)。在實際應用中,可以根據自己的業務需求,定義實體類別,並進行模型訓練。

5、實體關係抽取

實體關係抽取是自動識別非結構化文檔中兩個實體之間的關聯關係,屬於信息抽取領域的基礎知識之一。近年來,搜索領域流行的知識圖譜技術是構建實體關係。實體關係抽取有多種方式,包括規則匹配、有監督學習、無監督學習。其中有監督學習需要預先定義實體關係類別,通常將問題建模爲分類問題。有監督學習需要預先人工標註語料庫。

自動翻譯包括機器翻譯和語音機翻譯這兩個方面。自動翻譯的過程必須經歷這三個過程:

第一分析句子;該階段對翻譯的過程起着決定性的作用。第二轉換:根據第一的分析結果將源語言的結構轉換成目標語言對應的結構。第三生成:完成目標語言的譯文,形成最終譯文。

在第一階段分析句子的過程中主要包括以下五個層次的分析,才能實現優質的翻譯結果:

層次概述詳細描述
1字母轉義更換原詞中的字母
2詞與詞的翻譯使用詞典
3語法翻譯鑑別語法結構
4語義翻譯注意詞的語義和搭配關係
5語境翻譯聯繫上下文

關注“AI人工智能客棧”

     關注公衆號“AI人工智能客棧”,回覆關鍵詞 
     “python人工智能視頻”
     “人工智能書籍”
     “人工智能發展報告”
     獲得更多資料
     乾貨持續更新中,歡迎關注,歡迎取關。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章