《Mining the massive data》 第一章 筆記

《Mining the massive data》 第一章 筆記


  • 數據挖掘的基本概念
    數據挖掘是數據“模型”的發現過程,e.g.統計建模
  • 機器學習vs數據挖掘
    一些數據挖掘 方法中 使用了機器學習算法,如貝葉斯網絡, SVM , 決策樹,隱馬爾科夫模型etc。
    機器學習擅長的典型場景是人民對數據中的尋找目標一無所知,如推薦算法。但如果我們隊挖掘的目標能夠直接描述,機器學習算法並不高效。
  • 數據建模的方法
    1) 數據彙總:對數據進行簡潔的近似彙總描述。e.g. PageRank,聚類
    2)特徵抽取:從數據中抽取特徵,並忽略其他。e.g. 頻繁項集,相似性
  • 數據挖掘的統計限制

邦弗朗尼原理 (Bonferroni correction)
假設數據隨機,計算所尋找事件的期望,如果該期望值顯著高於你所希望找到的真實事件的數目,那麼尋找到的結果都是臆造的,是統計的假象。


習題

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章