NLP 任務中有哪些巧妙的 idea?

轉載來源:https://www.zhihu.com/question/356132676/answer/901244271
作者:邱錫鵬

這個問題很有趣!看了下目前的回答都是深度學習之後的,我就回答幾個深度學習之前的吧:)
先從語義表示說起吧,個人覺得都是簡單並且巧妙的想法(但其背後的理論不一定簡單)。

1. 分佈式假設(Distributional Hypothesis)

“Linguistic items with similar distributions have similar meanings.” 參考

直白點就是,一個詞的語義可以用它的上下文表示。

對NLP來說,個人覺得分佈式假設是來自語言學的最有價值的“理論”之一。

2. 詞袋模型(Bag-of-Words)

將一篇文檔看作是一個詞的集合,不考慮語法,甚至是詞序信息也都拋棄了。

BoW模型解決了用機器學習來做NLP的一個痛點問題:怎樣把一個變成的文本序列轉換爲定長的向量。

相關擴展:N-gram,TF-IDF等3. 潛在語義分析(Latent Semantic Analysis)

3. 潛在語義分析(Latent Semantic Analysis)

基於上面的分佈式假設和詞袋模型,我們可以構建一個詞-文檔矩陣(term-document matrixXX 。這個矩陣 XX 很有意思,每一列爲一個文檔的表示(BoW向量),每一行爲一個詞的語義表示(分佈式假設,其中上下文是以文檔爲基本單位)。這樣我們就可以用 XTXX^{T}X 表示文檔和文檔之間的關係,用 XXTXX^{T} 表示詞與詞之間的關係。這個矩陣還可以進行SVD分解,得到詞和文檔的稠密向量表示,可以發現潛在的語義信息(比如主題等)。
alt

4. 概率主題模型(Probabilistic Topic Models )

概率主題模型比詞袋模型多引入了一個“主題(Topic)”作爲隱變量。詞和文檔的之間關聯變成了:文檔->主題->詞。這個想法合情合理,聽上去就更好。如果你覺得哪裏不好,又可以魔改。概率主題模型的數學基礎(概率有向圖模型)十分漂亮,並且基於吉布斯採樣的推斷簡單到不可思議,甚至不需要圖模型的知識就可以理解。PTM是前深度學習時代NLP領域的一個大寶礦(Shui Keng)!
alt

5. 基於BMES的中文分詞或基於BIO的NER/Chunking

BMES 是Begin/Middle/End/Single的縮寫,代表所標記的字符是一個詞語的開始/中間/結尾/單字詞。

BIO是Begin/Inside/Outside的縮寫,表示所標記的詞是一個實體名的開始/內部/外部。
alt
這種標記將帶有分割性質的NLP任務轉換爲序列標註任務,可以使用HMM、CRF等成熟的機器學習模型。

6. 基於PageRank的TextRank

PageRank本身非常巧妙了,TextRank更是巧妙地將PageRank應用到NLP中的詞排序或句子排序上面,比如關鍵詞抽取、文本摘要等.
alt

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章