自然語言處理髮展及應用綜述 筆記
一、小結
這一篇論文主要介紹了自然語言處理的整體研究方法,包括五步,即獲取語料、對語料預處理、進行特徵化、進行模型訓練和最後的建模效果評估。絕大多數研究方法都遵循這五步。
然後是自然語言處理基礎研究的區分,有詞法分析、句法分析、語用分析和語義分析。其中語義分析是NLP研究的重點方向。
最後是對NLP研究領域的介紹,包括信息檢索(IE)、文本分類、情感分析、機器翻譯、社會計算、信息抽取(IR)和自動文摘。本篇論文詳細介紹了信息抽取和自動文摘的內容。
目前在各種細分的技術領域中,主要是依靠機器學習和深度學習來探索更優的方案。
原論文爲自然語言處理髮展及應用綜述,趙京勝著。
二、自然語言處理的研究方法
1. 自然語言處理的研究方法
- 基於規則和基於統計的方法
- 自然語言處理受數據影響較大,而數據的增長是大多數 NLP 應用(如機器翻譯)性能提高的原因,所以擁有強大的數據支持纔可以更好的對文本進行進一步的理解和分析,這使得如今很多NLP應用程序採用數據流分析方法。
2. 自然語言的處理流程
- 第一步獲取語料
- 第二步對語料進行預處理
- 第三步特徵化,也就是向量化
- 第四步模型訓練,包括傳統的有監督、半監督和無監督學習模型等(訓練模型時可能會出現過擬合和欠擬合的狀況)
- 第五步對建模後的效果進行評價,常用的評測指標有準確率(Precision)、召回率 (Recall)、F 值 (F-Measure)等。準確率是衡量檢索系統的查準率;召回率是衡量檢索系統的查全率;而 F 值是綜合準確率和召回率用於反映整體的指標,當 F 值較高時則說明試驗方法有效。
三、自然語言處理基礎研究
1. 詞法分析
-
詞法分析主要包括分詞、詞性標註、命名實體識別和詞義消歧。
-
詞性是詞彙最基本的語法屬性,使用詞性標註便於判定每個詞的語法範疇。
-
詞義標註、詞義消歧主要解決多語境下的詞義問題 ,解決一次多義。
-
詞法分析是最核心的部分。
-
命名實體識別的主要任務是識別文本中具有特定意義的詞語如人名、地名等,併爲其添加標註。
-
詞法分析的實現主要通過基於規則、基於統計、基於機器學習的方法。
2. 句法分析
-
句法分析的主要任務是爲了確定句子中各組成成分之間的關係,也就是其句法結構。
-
完全句法分析是要通過一套完整的分析過程獲得一個句子的句法樹。對完全句法分析來說 ,Chomsky 形式文法是極爲重要的理論,根據重寫規則分爲 4 級,分別是 0 型文法(無約束文法)、1 型文法(上下文有關文法)、2 型文法(上下文無關文法)和 3 型文法(正則文法)。這 4 種文法統稱爲短語結構語法。
-
淺層句法分析可分爲兩個子任務 :
- 其一是識別和分析語塊;
- 其二是分析語塊之間的依附關係。
-
依存句法也稱從屬關係語法。一個依存關係可分爲核心詞和依存詞。核心詞是一個句子的根節點,它負責支配句子中的其他詞。
3. 語義分析
在詞的層面上,語義分析指詞義消歧;在句的層面上指語義角色標註;在篇章的層面上指共指消解。語義分析是目前NLP研究的重點方向。
4. 語用分析
語用分析有四大要素:發話者、受話者、話語內容和語境。
三、自然語言處理的技術領域
1. 信息檢索(IR)
- 第一個任務是存儲海量信息;
- 第二個任務是根據用戶需求快速查找相關信息。
2. 文本分類
根據一套分類規則對文本進行自動分類的過程。
3. 情感分析
是一種通過判斷文本情感極性去表徵文檔的技術。
4. 機器翻譯
是通過計算機將一種語言翻譯到其他語言。
5. 社會計算
採用互聯網、大數據和機器學習等技術來研究社會問題,並尋找出一種合適的方法去解決問題。
6. 信息抽取(IE)
-
含義:信息抽取是將嵌入在文本中的非結構化信息提取並轉換爲結構化數據的過程
-
信息抽取的過程
- 首先對非結構化的數據進行自動化處理;
- 其次是針對性的抽取文本信息;
- 最後對抽取的信息進行結構化表示;
-
信息抽取的主要方法
- 基於規則的方法
- 基於統計的方法
- 機器學習的算法(近年來的重點);早期信息抽取主要用到的方法是模式匹配,後來又推出了基於詞典驅動的方法,如今主要在基於本體的關係抽取的基礎上,採用機器學習的方法來獲取關係特徵。
-
重點的機器學習算法
-
Golshan提出該領域的最新方法有基於機器學習的方法和基於深度學習的方法。這些方法爲信息抽取技術(IE)的出現奠定了基礎。
-
Niklaus 等人概述瞭解決Open IE 的幾種方法,並將他們歸爲三類:
- 基於規則的方法;
- 基於學習的方法;
- 基於clause系統的方法。
-
Cui等人提出了一種基於編譯碼框架的神經 Open IE 方法,將 Open IE 轉換爲一個序列到序列生成的問題,其中輸入序列是句子,輸出序列是一種帶有特殊佔位符的元組。
-
重要結論:研究表明,神經 Open IE 系統的性能顯著優於多數基線,它的精度和召回率方面也明顯優於其他方法。
-
-
信息抽取的主要工作
- 實體識別與抽取
- 實體消歧
- 關係抽取
- 事件抽取
-
命名實體識別(NER),主要任務是識別文本具有特定意義的詞語,併爲其添加相應的標註。
- 早期命名實體識別採用基於規則的方法;
- 近期人們利用機器學習建立知識庫再對文本進行處理的方法提高效率。國內近幾年的研究熱點集中在應用階段,命名實體識別也進入到實用階段。
-
實體消歧就是確定某一實體所指向的某一確定實體
- 主要有基於聚類的實體消歧;
- 基於實體鏈接的實體消歧。
-
關係抽取作爲信息抽取的核心工作,主要任務是獲取實體之間在語義上的聯繫。
7. 自動文摘
-
自動文摘是利用計算機按照某一規則自動地對文本信息進行提取、集合成簡短摘要的一種信息壓縮技術。
-
自動文摘的目標
- 首先使語言的簡短;
- 其次要保留重要信息。
-
自動文摘的分類
- 抽取式摘要是選取原文中部分關鍵詞組合成一篇摘要;
- 生成式摘要是指當計算機通讀原文並理解了文章的基礎上,間接凝練出原文的主旨要點。
-
自動文摘的主要過程
- 首先對語料進行預處理,識別冗餘信息;
- 其次是對文本內容進行選取和泛化;
- 最後對文摘進行轉換和生成。
-
自動文摘主要方法
- 基於規則的方法。Lead 方法是基於規則的抽取式自動摘要中的常用方法,雖然規則簡單但是效果較好,特別是對於新聞類的文摘;
- 圖模型可直觀表達出詞與詞之間的關聯信息,彌補傳統向量法的不足。經典的 TextRank算法模型就屬其中一種;
- Neto等人提出了一種基於可訓練機器學習算法的摘要過程,實驗表明採用樸素貝葉斯的可訓練方法分類器明顯優於所有基線方法。
- 基於大量金融領域的長文本語料,王帥提出了一種新摘要方法叫做:TP-AS,該方法採用兩階段自動生成摘要方法,其準確性在 ROUGE-1 的指標下達分別達到了36.6%(詞)和 33.9%(字符),結果明顯優於其他方法。
- Liu提出了一種基於模型的 NEXTSUM 方法,生成的摘要的長度與人工編寫的黃金標準的長度呈正相關,表明可以隱式地捕獲源文章中有多少值得摘要的內容。