NLP 任務中有哪些巧妙的 idea？

文章目錄

轉載來源：https://www.zhihu.com/question/356132676/answer/901244271
作者：邱錫鵬

這個問題很有趣！看了下目前的回答都是深度學習之後的，我就回答幾個深度學習之前的吧：）
先從語義表示說起吧，個人覺得都是簡單並且巧妙的想法（但其背後的理論不一定簡單）。

1. 分佈式假設（Distributional Hypothesis）

“Linguistic items with similar distributions have similar meanings.” 參考

直白點就是，一個詞的語義可以用它的上下文表示。

對NLP來說，個人覺得分佈式假設是來自語言學的最有價值的“理論”之一。

2. 詞袋模型（Bag-of-Words）

將一篇文檔看作是一個詞的集合，不考慮語法，甚至是詞序信息也都拋棄了。

BoW模型解決了用機器學習來做NLP的一個痛點問題：怎樣把一個變成的文本序列轉換爲定長的向量。

相關擴展：N-gram，TF-IDF等3. 潛在語義分析（Latent Semantic Analysis）

3. 潛在語義分析（Latent Semantic Analysis）

基於上面的分佈式假設和詞袋模型，我們可以構建一個詞-文檔矩陣（term-document matrix） $X$ 。這個矩陣 $X$ 很有意思，每一列爲一個文檔的表示（BoW向量），每一行爲一個詞的語義表示（分佈式假設，其中上下文是以文檔爲基本單位）。這樣我們就可以用 $X^{T}X$ 表示文檔和文檔之間的關係，用 $XX^{T}$ 表示詞與詞之間的關係。這個矩陣還可以進行SVD分解，得到詞和文檔的稠密向量表示，可以發現潛在的語義信息（比如主題等）。

4. 概率主題模型（Probabilistic Topic Models ）

概率主題模型比詞袋模型多引入了一個“主題（Topic）”作爲隱變量。詞和文檔的之間關聯變成了：文檔->主題->詞。這個想法合情合理，聽上去就更好。如果你覺得哪裏不好，又可以魔改。概率主題模型的數學基礎（概率有向圖模型）十分漂亮，並且基於吉布斯採樣的推斷簡單到不可思議，甚至不需要圖模型的知識就可以理解。PTM是前深度學習時代NLP領域的一個大寶礦（Shui Keng）！

5. 基於BMES的中文分詞或基於BIO的NER/Chunking

BMES 是Begin/Middle/End/Single的縮寫，代表所標記的字符是一個詞語的開始/中間/結尾/單字詞。

BIO是Begin/Inside/Outside的縮寫，表示所標記的詞是一個實體名的開始/內部/外部。

這種標記將帶有分割性質的NLP任務轉換爲序列標註任務，可以使用HMM、CRF等成熟的機器學習模型。

6. 基於PageRank的TextRank

PageRank本身非常巧妙了，TextRank更是巧妙地將PageRank應用到NLP中的詞排序或句子排序上面，比如關鍵詞抽取、文本摘要等.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

NLP 任務中有哪些巧妙的 idea？

文章目錄

1. 分佈式假設（Distributional Hypothesis）

2. 詞袋模型（Bag-of-Words）

3. 潛在語義分析（Latent Semantic Analysis）

4. 概率主題模型（Probabilistic Topic Models ）

5. 基於BMES的中文分詞或基於BIO的NER/Chunking

6. 基於PageRank的TextRank

Golang爬蟲代理接入的技術與實踐

文本生成評價指標的進化與推翻

NLP 任務中有哪些巧妙的 idea？

給你的數據加上槓杆：文本增強技術的研究進展及應用實踐

HeterSumGraph，異質圖神經網絡的抽取式摘要模型

萬字長文帶你一覽ICLR2020最新Transformers進展

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結