整理的數據挖掘基本概念一書中的第一章的知識點
數據挖掘:從數據中提取有用模型的過程。其中,提出的模型可以是數據的彙總結果,不過一般情況下是數據中極端的特徵所組成的集合。
邦弗朗尼原理:數據挖掘中考察數據的一個誤區,指某個顯著的特徵如果是很有可能在隨機數據中出現的話,那麼根據這個顯著的特徵所獲得的數據就具有不可依賴性。
TF.IDF:計算詞頻和詞語重要度的一個計量指標
冪定律:類似於馬太效應,可以表示爲y=cxa,a爲x的指數,此處a就是冪。這個定律在很多地方使用
比如pageRank,商品銷量,包括TF.IDF詞頻統計中。
哈希,索引,這些也很重要,就不介紹了~~
ps:現階段的數據挖掘中,機器學習和人工分析對於實際效果而言,並無明顯優勢