#讀書筆記#大數據·互聯網大規模數據挖掘與分佈式處理 第一章

第一章只有薄薄的十四頁,但先概述了數據挖掘的定義。也談到了數據挖掘的侷限性——邦弗蘭妮原理。最後介紹了數據挖掘要用到的相關知識,如TD·IDF,Hash,Index,二級存儲器,以及建模計算中需要用到的e,和冪定律。

  雖然現在Data mining 炒的非常的火,但在幾十年前,這個概念還是具有貶義色彩的,指過度抽取數據而不是信息的本身。很多人把機器學習等價於數據挖掘,事實上,二者是包含和被包含的關係。一些數據挖掘中適當的使用了些機器學習的算法。機器學習的將數據作爲輸入來訓練相應的算法,比如貝葉斯網絡,決策樹,馬爾科夫鏈等。機器學習比較適合的領域是對數據挖掘沒有明確的目標。而如果對數據的目標可以直接描述的時候,比如簡歷篩選,機器學習就沒有了任何優勢.

  數據建模的一般方法:

    a.數據彙總,eg:PageRank

    b.特徵抽取,1)Frequent Itemset 購物車關聯商品推薦 2)Similar Item  亞馬遜推薦系統


發佈了58 篇原創文章 · 獲贊 10 · 訪問量 11萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章