嗯,模型比較簡單,限定一個窗口(比如一個詞前後k個詞,認爲他們具有連接),然後計算PageRank 得到的就是這段話裏的關鍵字,據說比TFIDF要靠譜點
主要也是句子間連接關係的限定,paper裏計算句子的相似度: 然後一樣計算: 看清楚累加的下標 Vj 是 In(Vi) 的集合,分母是 Out(Vj) 的集合
參考1 參考2 代碼 論文
決策樹 基礎的內容,參考的鏈接: http://leijun00.github.io/2014/09/decision-tree/ ID3 最基礎的決策樹,多叉樹,僅能處理離散型值 採用信息增益來處理 g(D,A)=H(D)−
原文鏈接:http://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/ 翻譯鏈接:http://www.csdn.net/article/
參考文獻: 1. http://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
一、簡介 1.1 什麼是關鍵詞 關鍵詞是指能反映文本主題或者意思的詞語,如論文中的Keyword字段。 關鍵詞提取是文本挖掘領域一個很重要的部分,通過對文本提取的關鍵詞可以窺探整個文本的主題思想,進一步應用於文本的推薦或文本的搜索