第一章只有薄薄的十四頁,但先概述了數據挖掘的定義。也談到了數據挖掘的侷限性——邦弗蘭妮原理。最後介紹了數據挖掘要用到的相關知識,如TD·IDF,Hash,Index,二級存儲器,以及建模計算中需要用到的e,和冪定律。
雖然現在Data mining 炒的非常的火,但在幾十年前,這個概念還是具有貶義色彩的,指過度抽取數據而不是信息的本身。很多人把機器學習等價於數據挖掘,事實上,二者是包含和被包含的關係。一些數據挖掘中適當的使用了些機器學習的算法。機器學習的將數據作爲輸入來訓練相應的算法,比如貝葉斯網絡,決策樹,馬爾科夫鏈等。機器學習比較適合的領域是對數據挖掘沒有明確的目標。而如果對數據的目標可以直接描述的時候,比如簡歷篩選,機器學習就沒有了任何優勢.
數據建模的一般方法:
a.數據彙總,eg:PageRank
b.特徵抽取,1)Frequent Itemset 購物車關聯商品推薦 2)Similar Item 亞馬遜推薦系統