數據挖掘筆記

原創

JKhere

2020-02-25 09:31

什麼是數據挖掘？

數據挖掘是在大型數據存儲庫中，自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫，發現前所未知的有用模式。數據挖掘還可以預測未來的觀測結果。並非所有的信息發現任務都被視爲數據挖掘，與信息檢索的區別。

數據挖掘任務

預測建模，有兩類預測建模任務：分類（classification）和迴歸（regression）。分類用於預測離散的目標變量；迴歸用於預測連續的目標變量。如預測花的模型。

關聯分析，用來發現描述數據中強關聯特徵的模式。如購物籃分析。

聚類分析，旨在發現緊密相關的觀測值組羣，使得與屬於不同簇的觀測值相比，屬於同一簇的觀測值相互之間儘可能類似。

異常檢測，任務是識別其特徵顯著不同於其他數據的觀測值。如信用卡欺詐檢測。

分類法是一種根據輸入數據集建立分類模型的系統方法。分類法的例子包括決策樹分類法、基於規則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法。這些技術都使用一種學習算法確定分類模型，該模型能夠很好地擬合輸入數據中類標號和屬性集之間的聯繫。學習算法得到的模型不僅要很好地擬合輸入數據，還要能夠正確地預測未知樣本的類標號。因此，訓練算法的主要目標就是建立具有很好的泛化能力模型，即建立能夠準確地預測未知樣本類標號的模型。

決策樹：原則上講，對於給定的屬性集，可以構造的決策樹的數目達指數級。儘管某些決策樹比其他決策樹更準確，但是由於搜索空間是指數規模的，找出最佳決策樹在計算上是不可行的。儘管如此，人們還是開發了一些有效的算法，能夠在合理的時間內構造出具有一定準確率的次優決策樹。這些算法通常採用貪心策略，在選擇劃分數據的屬性時，採取一系列局部最優決策來構造決策樹，Hunt算法就是一種這樣的算法。Hunt算法是許多決策樹算法的基礎，包括ID3、C4.5和CART。

基於規則的分類法：最近鄰分類器，是一種消極學習方法不需要建立模型，然而，分類測試樣例的開銷很大，因爲需要逐個計算測試樣例和訓練樣例之間的相似度。相反，積極學習方法通常花費大量計算資源來建立模型，模型一旦建立，分類測試樣例就會很快。貝葉斯分類器，是一種把類的先驗知識和從數據中收集的新證據相結合的統計原理。貝葉斯分類器的兩種實現：樸素貝葉斯和貝葉斯信念網絡。

神經網絡

支持向量機

隨機森林

聚類算法：

K均值，是基於原型的、劃分的聚類技術。它試圖發現用戶指定個數（K）的簇（由質心代表）。K均值用質心定義原型，其中質心是一組點的均值。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘筆記

SQL優化-20231016

《SLIC Superpixels》閱讀筆記

各種距離（Distance）

2013 Linux領域年終大盤點

linux常見壓縮格式及deb安裝包用法

sciTE設置

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結