文章目錄
還需要查的關鍵詞
文本生成,文本摘要,句子壓縮與融合,文本複述,遠程監督Distant Supervison,隨機遊走Random walk,馬爾科夫邏輯Markov logic,Beam search,基於深層語法的文本生成,線圖分析法(Chart Parsing)技術,基於同步文法的文本生成。
語法理論
語法分析
組合範疇語法(Combinatory Categorial Grammar;簡稱 CCG)
中心語驅動的短語結構語法(Head-driven Phrase-Structure Grammar;簡稱 HPSG)。
上下文無關文法(Context-Free Grammar;簡稱 CFG)
關鍵詞提取
分類
- 有監督
關鍵詞抽取算法看作是二分類問題。 - 半監督
只需要少量的訓練數據,利用這些訓練數據構建關鍵詞抽取模型,然後使用模型對新的文本進行關鍵詞提取,對於這些關鍵詞進行人工過濾,將過濾得到的關鍵詞加入訓練集,重新訓練模型。 - 無監督
算法
基於統計學
- 詞權重
基於詞權重的特徵量化主要包括詞性、詞頻、逆向文檔頻率、相對詞頻、詞長等。 - 詞的文檔位置
這種特徵量化方式是根據文章不同位置的句子對文檔的重要性不同的假設來進行的。通常,文章的前N個詞、後N個詞、段首、段尾、標題、引言等位置的詞具有代表性,這些詞作爲關鍵詞可以表達整個的主題。 - 基於詞的關聯信息的特徵量化
詞的關聯信息是指詞與詞、詞與文檔的關聯程度信息,包括互信息、hits值、貢獻度、依存度、TF-IDF值等。
基於詞圖模型
語言網絡類型
- 共現網絡圖
- 語法網絡圖
- 語義網絡圖
- 其他網絡圖
節點的重要性計算方法
- 綜合特徵法
度,接近性,特徵向量,集聚係數,平均最短路徑。 - 系統科學法
- 隨機遊走法
PageRank,TextRank。
基於主題模型
步驟
- 獲取候選關鍵詞
從文章中獲取候選關鍵詞。即將文本分詞,也可以再根據詞性選取候選關鍵詞。 - 語料學習
根據大規模預料學習得到主題模型。 - 計算文章主題分部
根據得到的隱含主題模型,計算文章的主題分佈和候選關鍵詞分佈。 - 排序
計算文檔和候選關鍵詞的主題相似度並排序,選取前n個詞作爲關鍵詞。
聚類
基於高維聚 類技術的中文關鍵詞提取算法。算法通過依據小詞典的快速分詞、二次分詞、高維聚類及關鍵詞甄選四個步驟實現關鍵詞的提取。理論分析和實驗顯示,基於高維聚 類技術的中文關鍵詞提取方法具備更好的穩定性、更高的效率及更準確的結果。
- k-means
模型
- TextRank
- PageRank
- 主題模型:LSA,LSI,LDA
- TPR
- TF-IDF
- TF-IWF
- PCA
- 卡方檢驗
- RAKE(Rapid Automatic Keyword Extraction)
代碼 論文 Automatic Keyword Extraction from Individual Documents 作者Alyona Medelyan - Maui
- Topica
參考文獻
- 幾種關鍵詞提取算法對比
- 關鍵字抽取博士論文(劉知遠)
- 專欄 | 如何做好文本關鍵詞提取?從三種算法說起 機器之心
- NLP keyword extraction tutorial with RAKE and Maui
- Keyword Extraction for Understanding(介紹了Chi-Square、Keygraph、TF-IDF 三種方法)
- Efficient unsupervised keywords extraction using graphs
- GitHub上有關keyword-extraction的代碼
- 代碼 Automated Keyword Extraction from Articles using NLP
- 提取關鍵詞的實用工具(效果不好)
- 實用工具 rake-nltk 1.0.4接口
文本生成-文本摘要
分類
-
單文檔摘要 & 多文檔摘要
-
抽取式 & 生成式
抽取式:
- Lead-3
- TextRank
- 聚類
- 序列標註方式
序列標註結合Seq2Seq - Seq2Seq方式
- 句子排序方式
結合打分
生成式
- Seq2Seq
增加了 Copy 和 Coverage 機制。 - 利用外部信息
- 多任務學習
- 生成對抗方式
生成抽取式
- pointer-generator 網絡。
-
有監督 & 無監督
算法
- 基於統計學
- 基於外部語義資源
詞彙鏈。
wordnet(面向語義的英文詞典)、詞性標註工具等。 - 圖排序
Text rank排序算法。
LexRank:無監督圖形方法。
PageRank。
HITS。 - 統計機器學習
樸素貝葉斯算法、隱馬爾可夫算法、決策樹算法等。
特徵:主題詞特徵、大寫詞特徵、線索短語特徵、句子長度特徵、段落特徵,詞頻、線索詞、句子位置、TF-IDF 值、標題詞長,平均句子長度,平均詞彙連接度,是否包含數詞、時間等信息,是否包含代詞、形詞等詞彙,是否包含命名實體。 - 深度學習
Seq2Seq模型。
TensorFlow的一個自動摘要模塊 Textsum。
評價方法
ROUGE
文本摘要參考文獻
- awesome-text-summarization(文本摘要相關的數據集、軟件、論文的彙總)
- 非監督文本摘要(簡介文本摘要,並介紹了一個非監督文本摘要模型)
- 基於句嵌入進行無監督文本總結的經驗(和上一個參考資料介紹了相同的論文)
- 前兩個參考文獻介紹的論文用到的代碼:
- 文本摘要簡述
- 論文閱讀:EmbedRank: Unsupervised Keyphrase Extraction using Sentence Embeddings(介紹得太簡略,另外這個論文有相應代碼)
- 文本摘要的系統性學習(1)(對文本摘要的概括性介紹,內容比較全)
- 人去做文本摘要都挺困難了,機器要怎麼做?(seq2seq+注意力,介紹了文本摘要的一些模型)
閱讀理解
參考資料:
文本分類
模型
工具
問答系統
方法
語義解析(Semantic Parsing)
語義表示(表示成邏輯形式) + 推理查詢(需要用到查詢知識庫的邏輯語言)。
語法解析的過程可以看作是自底向上構造語法樹的過程,樹的根節點,就是該自然語言問題最終的邏輯形式表達。整個流程可以分爲兩個步驟:
- 詞彙映射:即構造底層的語法樹節點。將單個自然語言短語或單詞映射到知識庫實體或知識庫實體關係所對應的邏輯形式。我們可以通過構造一個詞彙表(Lexicon)來完成這樣的映射。
- 構建(Composition):即自底向上對樹的節點進行兩兩合併,最後生成根節點,完成語法樹的構建。
具體方法:組合範疇語法(Combinatory Categorical Grammars,CCG),暴力方法(對兩個節點都可以執行Join、Intersection、Aggregate等操作。
信息抽取(Information Extraction)
從句子得到實體(NER,依存樹,詞性標註)(問題詞,問題焦點,主題詞,中心動詞) =》知識庫子圖 =》節點或邊作爲候選答案 =》按規則或模板進行匹配(信息抽取)=》得到表徵問題或答案的特徵向量=》分類器(SVM,感知機,邏輯迴歸……)得到答案。
向量建模(Vector Modeling)
基於深度學習的方法。通過深度學習對傳統的方法進行提升。
參考
- 揭開知識庫問答KB-QA的面紗0·導讀篇
- 揭開知識庫問答KB-QA的面紗1·簡介篇
- 揭開知識庫問答KB-QA的面紗2·語義解析篇
- 揭開知識庫問答KB-QA的面紗3·信息抽取篇
- 揭開知識庫問答KB-QA的面紗4·向量建模篇
- 揭開知識庫問答KB-QA的面紗5·深度學習上篇
- 揭開知識庫問答KB-QA的面紗6·深度學習中篇
- 揭開知識庫問答KB-QA的面紗7·深度學習下篇(二)
- 揭開知識庫問答KB-QA的面紗8·非結構化知識篇
- 揭開知識庫問答KB-QA的面紗9·動態模型篇
- 基於知識圖譜的問答系統入門之—NLPCC2016KBQA數據集
- KBQA: 基於開放域知識庫上的QA系統
論文參考
語義解析:
- Berant J, Chou A, Frostig R, et al. Semantic Parsing on Freebase from Question-Answer Pairs[C]//EMNLP. 2013, 2(5): 6.
- Cai Q, Yates A. Large-scale Semantic Parsing via Schema Matching and Lexicon Extension[C]//ACL (1). 2013: 423-433.
- Kwiatkowski T, Choi E, Artzi Y, et al. Scaling semantic parsers with on-the-fly ontology matching[C]//In Proceedings of EMNLP. Percy. 2013.
- Fader A, Zettlemoyer L, Etzioni O. Open question answering over curated and extracted knowledge bases[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 1156-1165.
- Yih S W, Chang M W, He X, et al. Semantic parsing via staged query graph generation: Question answering with knowledge base[J]. 2015. (注 該paper來自微軟,是ACL 2015年的Outstanding paper,也是目前KB-QA效果最好的paper之一)
信息抽取:
- Yao X, Van Durme B. Information Extraction over Structured Data: Question Answering with Freebase[C]//ACL (1). 2014: 956-966.
向量建模方法:
- Bordes A, Chopra S, Weston J. Question answering with subgraph embeddings[J]. arXiv preprint arXiv:1406.3676, 2014.
- Yang M C, Duan N, Zhou M, et al. *Joint Relational Embeddings for Knowledge-based Question Answering[*C]//EMNLP. 2014, 14: 645-650.
- Bordes A, Weston J, Usunier N. Open question answering with weakly supervised embedding models[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Springer Berlin Heidelberg, 2014: 165-180.
- Dong L, Wei F, Zhou M, et al. Question Answering over Freebase with Multi-Column Convolutional Neural Networks[C]//ACL (1). 2015: 260-269.
使用LSTM、CNNs進行實體關係分類:
- Xu Y, Mou L, Li G, et al. Classifying Relations via Long Short Term Memory Networks along Shortest Dependency Paths[C]//EMNLP. 2015: 1785-1794.
- Zeng D, Liu K, Lai S, et al. Relation Classification via Convolutional Deep Neural Network[C]//COLING. 2014: 2335-2344.(Best paper)
- Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]//EMNLP. 2015: 1753-1762.
使用記憶網絡(Memory Networks),注意力機制(Attention Mechanism)進行KB-QA:
- Bordes A, Usunier N, Chopra S, et al. Large-scale simple question answering with memory networks[J]. arXiv preprint arXiv:1506.02075, 2015.
- Zhang Y, Liu K, He S, et al. Question Answering over Knowledge Base with Neural Attention Combining Global Knowledge Information[J]. arXiv preprint arXiv:1606.00979, 2016.
命名實體識別NER
方法
NER模型發展歷史:MLP->LSTM->LSTM/CNN+CRF->BiLSTM+CRF- >BiLSTM+CNN+CRF