數據挖掘筆記

什麼是數據挖掘?

數據挖掘是在大型數據存儲庫中,自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現前所未知的有用模式。數據挖掘還可以預測未來的觀測結果。並非所有的信息發現任務都被視爲數據挖掘,與信息檢索的區別。

數據挖掘任務

預測建模,有兩類預測建模任務:分類(classification)和迴歸(regression)。分類用於預測離散的目標變量;迴歸用於預測連續的目標變量。如預測花的模型。

關聯分析,用來發現描述數據中強關聯特徵的模式。如購物籃分析。

聚類分析,旨在發現緊密相關的觀測值組羣,使得與屬於不同簇的觀測值相比,屬於同一簇的觀測值相互之間儘可能類似。

異常檢測,任務是識別其特徵顯著不同於其他數據的觀測值。如信用卡欺詐檢測。

 

分類法是一種根據輸入數據集建立分類模型的系統方法。分類法的例子包括決策樹分類法基於規則的分類法神經網絡支持向量機樸素貝葉斯分類法。這些技術都使用一種學習算法確定分類模型,該模型能夠很好地擬合輸入數據中類標號和屬性集之間的聯繫。學習算法得到的模型不僅要很好地擬合輸入數據,還要能夠正確地預測未知樣本的類標號。因此,訓練算法的主要目標就是建立具有很好的泛化能力模型,即建立能夠準確地預測未知樣本類標號的模型。

決策樹:原則上講,對於給定的屬性集,可以構造的決策樹的數目達指數級。儘管某些決策樹比其他決策樹更準確,但是由於搜索空間是指數規模的,找出最佳決策樹在計算上是不可行的。儘管如此,人們還是開發了一些有效的算法,能夠在合理的時間內構造出具有一定準確率的次優決策樹。這些算法通常採用貪心策略,在選擇劃分數據的屬性時,採取一系列局部最優決策來構造決策樹,Hunt算法就是一種這樣的算法。Hunt算法是許多決策樹算法的基礎,包括ID3、C4.5和CART。

基於規則的分類法:最近鄰分類器,是一種消極學習方法不需要建立模型,然而,分類測試樣例的開銷很大,因爲需要逐個計算測試樣例和訓練樣例之間的相似度。相反,積極學習方法通常花費大量計算資源來建立模型,模型一旦建立,分類測試樣例就會很快。貝葉斯分類器,是一種把類的先驗知識和從數據中收集的新證據相結合的統計原理。貝葉斯分類器的兩種實現:樸素貝葉斯和貝葉斯信念網絡。

神經網絡

支持向量機

隨機森林

 

聚類算法:

K均值,是基於原型的、劃分的聚類技術。它試圖發現用戶指定個數(K)的簇(由質心代表)。K均值用質心定義原型,其中質心是一組點的均值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章