【NLP複習】關鍵詞提取方法（TF-IDF、TextRank）

原創

木尧大兄弟

2020-06-19 10:50

一、TF-IDF

TF = 某詞在文檔中出現的次數 / 文檔的總詞數
IDF = log_e ( 語料庫中文檔總數 / 包含該詞的文檔數+1 )
優點：簡單快速
不足：沒考慮單詞的位置和語義信息；生僻詞的IDF值會過高；重要人名地名信息抽的效果不好；依賴於分詞結果

二、TextRank

d爲阻尼係數一般是0.85；兩個詞彙節點在長度爲K的窗口中共現就把他們給連起來。
優點：考慮了單詞之間的相互關係
不足：沒有考慮單詞的語義信息，缺少對上下文的整體考慮，詞語間連接的權重都賦予相同的默認值，不能區分連接關係的強弱。

【參考資料】

https://blog.csdn.net/qq_34333481/article/details/84616759

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【NLP複習】關於詞向量的基礎知識和BERT問世之前的模型

一、解釋一下詞袋和文本離散表示？文本表示分爲離散表示和分佈式表示。離散表示的代表就是詞袋模型，one-hot、TF-IDF、n-gram都可以看作是詞袋模型的詞向量表示方法。去重後扔進字典裏，沒有順序可言。句子的one-hot編碼：如

木尧大兄弟

2020-06-19 19:16:43

【NLP複習】深度學習中的優化方法

概述：前言爲需要優化的原因，正文爲梯度下降/隨機梯度下降/小批量隨機梯度下降/動量法/AdaGrad和RMSProp算法/AdaDelta算法/Adam算法。前言：需要優化的原因（局部最小值和鞍點）： x=x- η ▽f(x) ：學

木尧大兄弟

2020-06-19 10:50:36

【NLP複習】常用激活函數的比較

一、啥是激活函數？爲啥用激活函數？常用的有哪些？啥是激活函數？激活函數是上層節點的輸出和下層節點的輸入之間的一個非線性函數關係。爲啥用激活函數？要是不用激活函數，不管多少層的神經網絡說白了都是些線性變換的疊加，網絡的逼近能力有限，所以

木尧大兄弟

2020-06-19 10:50:35

【NLP複習】NER：用HMM（隱馬）訓練，用維特比算法預測

一、命名實體識別（NER）是生成模型還判別模型？主流模型？是生成模型：P(x|y)，訓練過程根據tag預測token；而判別模型P(y|x)與之相反基於LM的主流模型：BERT/LSTM+CRF 概率圖模型：HMM 二、何爲HMM？

木尧大兄弟

2020-06-16 11:37:57

【NLP複習】如何解決過擬合？

一、過擬合的原因主要原因是訓練數據中存在噪音或者訓練數據太少，或訓練集和測試集特徵分佈不一致根本的原因則是特徵維度(或參數)過多，導致模型完美擬合訓練集，對新數據的預測結果較差二、如何解決過擬合 simpler model stru

木尧大兄弟

2020-06-16 11:37:57

【NLP複習】決策樹ID3/C4.5/CART的區別以及預剪枝、後剪枝

一、決策樹的生成算法有哪些？區別是啥？ ID3：由熵增（信息增益）來決定哪個特徵是父節點，哪個特徵需要分裂（選擇屬性時偏向選擇取值多的屬性）。對於一組數據，熵越小說明分類結果越好。熵定義如下：信息增益 = entroy(前) -

木尧大兄弟

2020-06-16 11:37:57

【NLP複習】集成學習——Bootstraping、Bagging、Boosting、GBDT、XGBoost

一、Bootstraping、Bagging、Boosting的思想？ Bootstraping（自助抽樣法）：從給定訓練集中有放回的均勻抽樣。假設給定的數據集包含d個樣本。該數據集有放回地抽樣d次，訓練集中沒出現的概率就是d次都未

木尧大兄弟

2020-06-13 21:29:18

【NLP複習】關於詞向量的基礎知識和BERT問世之前的模型

一、解釋一下詞袋和文本離散表示？文本表示分爲離散表示和分佈式表示。離散表示的代表就是詞袋模型，one-hot、TF-IDF、n-gram都可以看作是詞袋模型的詞向量表示方法。去重後扔進字典裏，沒有順序可言。句子的one-hot編碼：如

木尧大兄弟

2020-06-19 19:16:43

【NLP複習】深度學習中的優化方法

概述：前言爲需要優化的原因，正文爲梯度下降/隨機梯度下降/小批量隨機梯度下降/動量法/AdaGrad和RMSProp算法/AdaDelta算法/Adam算法。前言：需要優化的原因（局部最小值和鞍點）： x=x- η ▽f(x) ：學

木尧大兄弟

2020-06-19 10:50:36

【NLP複習】常用激活函數的比較

一、啥是激活函數？爲啥用激活函數？常用的有哪些？啥是激活函數？激活函數是上層節點的輸出和下層節點的輸入之間的一個非線性函數關係。爲啥用激活函數？要是不用激活函數，不管多少層的神經網絡說白了都是些線性變換的疊加，網絡的逼近能力有限，所以

木尧大兄弟

2020-06-19 10:50:35

【NLP複習】NER：用HMM（隱馬）訓練，用維特比算法預測

一、命名實體識別（NER）是生成模型還判別模型？主流模型？是生成模型：P(x|y)，訓練過程根據tag預測token；而判別模型P(y|x)與之相反基於LM的主流模型：BERT/LSTM+CRF 概率圖模型：HMM 二、何爲HMM？

木尧大兄弟

2020-06-16 11:37:57

【NLP複習】如何解決過擬合？

一、過擬合的原因主要原因是訓練數據中存在噪音或者訓練數據太少，或訓練集和測試集特徵分佈不一致根本的原因則是特徵維度(或參數)過多，導致模型完美擬合訓練集，對新數據的預測結果較差二、如何解決過擬合 simpler model stru

木尧大兄弟

2020-06-16 11:37:57

【NLP複習】決策樹ID3/C4.5/CART的區別以及預剪枝、後剪枝

一、決策樹的生成算法有哪些？區別是啥？ ID3：由熵增（信息增益）來決定哪個特徵是父節點，哪個特徵需要分裂（選擇屬性時偏向選擇取值多的屬性）。對於一組數據，熵越小說明分類結果越好。熵定義如下：信息增益 = entroy(前) -

木尧大兄弟

2020-06-16 11:37:57

【NLP複習】集成學習——Bootstraping、Bagging、Boosting、GBDT、XGBoost

一、Bootstraping、Bagging、Boosting的思想？ Bootstraping（自助抽樣法）：從給定訓練集中有放回的均勻抽樣。假設給定的數據集包含d個樣本。該數據集有放回地抽樣d次，訓練集中沒出現的概率就是d次都未

木尧大兄弟

2020-06-13 21:29:18

24小時熱門文章

最新文章

最新評論文章