關於數據挖掘的幾個概念

整理的數據挖掘基本概念一書中的第一章的知識點

數據挖掘:從數據中提取有用模型的過程。其中,提出的模型可以是數據的彙總結果,不過一般情況下是數據中極端的特徵所組成的集合。

邦弗朗尼原理:數據挖掘中考察數據的一個誤區,指某個顯著的特徵如果是很有可能在隨機數據中出現的話,那麼根據這個顯著的特徵所獲得的數據就具有不可依賴性。

TF.IDF:計算詞頻和詞語重要度的一個計量指標

冪定律:類似於馬太效應,可以表示爲y=cxa,a爲x的指數,此處a就是冪。這個定律在很多地方使用

比如pageRank,商品銷量,包括TF.IDF詞頻統計中。

哈希,索引,這些也很重要,就不介紹了~~

ps:現階段的數據挖掘中,機器學習和人工分析對於實際效果而言,並無明顯優勢

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章