《Mining the massive data》 第一章 筆記
- 數據挖掘的基本概念
數據挖掘是數據“模型”的發現過程,e.g.統計建模 - 機器學習vs數據挖掘
一些數據挖掘 方法中 使用了機器學習算法,如貝葉斯網絡, SVM , 決策樹,隱馬爾科夫模型etc。
機器學習擅長的典型場景是人民對數據中的尋找目標一無所知,如推薦算法。但如果我們隊挖掘的目標能夠直接描述,機器學習算法並不高效。 - 數據建模的方法
1) 數據彙總:對數據進行簡潔的近似彙總描述。e.g. PageRank,聚類
2)特徵抽取:從數據中抽取特徵,並忽略其他。e.g. 頻繁項集,相似性 - 數據挖掘的統計限制
邦弗朗尼原理 (Bonferroni correction)
假設數據隨機,計算所尋找事件的期望,如果該期望值顯著高於你所希望找到的真實事件的數目,那麼尋找到的結果都是臆造的,是統計的假象。