數據倉庫與數據挖掘(一)

1、數據挖掘的特點:

數據挖掘的數據源必須是真實的;

數據挖掘所處理的數據必須是海量的;

查詢一般是決策制定者(用戶)提出的隨機查詢;

挖掘出來的知識一般是不能預知的;

2、數據挖掘算法的組成:

模型或模式結構;

數據挖掘任務;

評分函數;

搜索和優化方法;

數據管理策略;

3、根據數據分析者的目標,可以將數據挖掘任務分爲:

模式挖掘:致力於從數據中尋找模式,比如尋找頻繁模式,異常點等;

描述建模:目標是描述數據的全局特徵。

預測建模:根據現有數據先建立一個模型,然後應用這個模型來對未來的數據進行預測。

當被預測的變量是範疇型(category)時,稱之爲分類;

當被預測的變量是數量型(quantitative)時,稱之爲迴歸。

描述和預測的關鍵區別是:預測的目標是唯一的變量,如信用等級、疾病種類等,而描述並不以單一的變量爲中心。

描述建模的典型例子是聚類分析。

4、評分函數

評分函數用來對數據集與模型(模式)的擬合程度進行評估。

如果沒有評分函數,就無法說出一個特定的已擬合的模型是否比另一個要好。或者說,就沒有辦法爲模型(模式)選擇出一套好的參數值來。
常用的評分函數有:似然(likelihood)函數、誤差平方和、準確率等。 
在爲模型(模式)選擇一個評分函數時,既要能夠很好地擬合現有數據,又要避免過度擬合(對極端值過於敏感),同時還要使擬合後的模型(模式)儘量簡潔。
不存在絕對“正確”的模型(模式),所有模型(模式)都是對現有數據的一種近似。從這個角度來講,如果模型(模式)沒有隨着現有數據的變化而劇烈變化,這個模型(模式)就是能夠接受的了。換句話說,對數據的微小變化不太敏感的模型(模式)纔是一個好的模型(模式)

  評分函數衡量了提出的模型(模式)與現有數據集的擬合程度

搜索和優化的目標是確定模型(模式)的結構及其參數值,以使評分函數達到最小值(或最大值)。
5、搜索和優化方法

如果模型(模式)的結構已經確定,則搜索將在參數空間內進行,目的是針對這個固定的模型(模式)結構,優化評分函數。
如果模型(模式)的結構還沒有確定的話(例如,存在一族不同的模型(模式)結構),那麼搜索既要針對結構空間又要針對和這些結構相聯繫的參數空間進行。
針對特定的模型,發現其最佳參數值的過程通常被稱爲優化問題。
而從潛在的模型(模式)族中發現最佳模型(模式)結構的過程通常被稱爲搜索問題。 
6、組件化思想的應用

在實踐中,數據挖掘算法的組件化思想是非常有用的。它通過將算法分解成一些核心組件而闡明瞭算法的實現機制。更重要的是,該觀點強調了算法的本質,而不僅僅是算法的羅列。
當面對一個新的應用時,數據挖掘人員應該從組件的角度,根據應用需求,考慮應該選取哪些組件,來組成一個新的算法,而不是考慮選取哪個現成的算法。
確定模型(模式)結構和評分函數的過程通常由人來完成
而優化評分函數的過程通常需要計算機輔助來實現。實踐中,通常要根據前一次的計算結果來改進模型(模式)結構和評分函數,所以整個過程要重複很多次。
實際上,一個數據挖掘算法的所有組件都是至關重要的。
對於小的數據集,模型(模式)的解釋和預測能力相對於計算效率來說可能要重要的多。
但是,隨着數據集的增大,計算效率將變得越來越重要。對於海量數據,必須在模型(模式)的完備性和計算效率之間進行平衡,以期對現有數據達到某種程度的擬合


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章