R語言數據挖掘實戰系列(3)

R語言數據挖掘實戰系列(3)

三、數據探索

        通過檢驗數據集的數據質量、繪製圖表、計算某些特徵量等手段,對樣本數據集的結構和規律進行分析的過程就是數據探索。

數據質量分析

        數據質量分析的主要任務是檢查原始數據中是否存在髒數據,髒數據一般是指不符合要求,以及不能直接進行相應分析的數據。常見的髒數據包括:缺失值、異常值、不一致的值、重複數據及含有特殊符號的數據。

        缺失值分析

        數據的缺失主要包括記錄的缺失和記錄中某個字段信息的缺失。產生的原因有(1)有些信息暫時無法獲取,或者獲取信息的代價太大;(2)有些信息是被遺漏的;(3)屬性不存在。缺失值的影響有(1)數據挖掘建模將丟失大量的有用信息;(2)數據挖掘模型所表現出的不確定性更加顯著,模型中蘊含的規律更難把握;(3)包含空值的數據會使建模過程陷入混亂,導致不可靠的輸出。缺失值分析:使用簡單的統計分析,可以得到含有缺失值的屬性的個數、以及每個屬性的未缺失數、缺失數與缺失率等。缺失值處理,從總體上來說分爲刪除存在缺失值的記錄、對可能值進行插補和不處理三種情況。

        異常值分析

        異常值分析是檢驗數據是否有錄入錯誤以及含有不合常理的數據。異常值是指樣本中的個別值,其數值明顯偏離其餘的觀測值。異常值又稱爲離羣點,異常值分析也成爲離羣點分析。

        (1)簡單統計量分析。對變量做一個描述性統計,進而查看哪些數據是不合理的。最常用的統計量是最大值和最小值,用來判斷這個變量的取值是否超出了合理的範圍。

        (2)3σ原則。如果數據服從正態分佈,在3σ原則下,異常值被定義爲一組測定值中與平均值的偏差超過三倍標準差的值。如果數據不服從正態分佈,也可以用遠離平均值的多少倍標準差來描述。

        (3)箱型圖分析。箱型圖提供了識別異常值的一個標準:異常值通常被定義爲小於QL-1.5IQR或大於QU+1.5IQR的值。QL稱爲下四分位數,表示全部觀察值中有四分之一的數據取值比它小;QU稱爲上四分位數,表示全部觀察值中有四分之一的數據取值比它大;IQR稱爲四分位數間距,是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半。

        一致性分析

        數據的不一致是指數據的矛盾性、不相容性。在數據挖掘過程中,不一致數據的產生主要發生在數據集成的過程中,可能是由被挖掘數據來自於不同的數據源、對於重複存放的數據未能進行一致性更新造成的。

數據特徵分析

        分佈分析

        分佈分析能揭示數據的分佈特徵和分佈類型。

        1.定量數據的分佈分析

        對於定量變量,選擇“組數”和“組寬”是做頻率分佈分析時最主要的問題,一般按照以下步驟:(1)求極差;(2)決定組距與組數;(3)決定分點;(4)列出頻率分佈表;(5)繪製頻率分佈直方圖。遵循的主要原則有:各組之間必須是相互排斥;各組必須將所有的數據包含在內;各組的組寬最好相等。

        2.定性數據的分佈分析

        對於定性變量,通常根據變量的分類類型來分組,可以採用餅形圖和條形圖來描述定性變量的分佈。

        對比分析

        對比分析是指把兩個相互聯繫的指標進行比較,從數量上展示和說明研究對象規模的大小,水平的高低,速度的快慢,以及各種關係是否協調。特別適用於指標間的橫縱向比較、時間序列的比較分析。對比分析的關鍵在於選擇合適的對比標準。對比分析主要有兩種形式:絕對數比較,相對數比較(由兩個有聯繫的指標對比計算的,用以反映客觀現象之間數量聯繫程度的綜合指標,其數值表現爲相對數。相對數可以分爲結構相對數、比例相對數、比較相對數、強度相對數、計劃完成程度相對數和動態相對數。)

        統計量分析

        用統計指標對定量數據進行統計描述,通常從集中趨勢和離中趨勢兩個方面進行分析。平均水平的指標是對個體集中趨勢的度量,使用最廣泛的是均值和中位數;反應變異程度的指標則是對個體離開平均水平的度量,使用較廣泛的是標準差(方差)、四分位數間距。

        1.集中趨勢度量

        均值、中位數、衆數

        2.離中趨勢分析

        極差、標準差、變異係數(度量標準差相對於均值的離中趨勢,計算公式爲:CV=標準差/均值×100%)、四分位數間距(四分位數間距是上四分位數QU與下四分位數QL之差,其間包含了全部觀察值的一半。其值越大,說明數據的變異程度越大,反之,說明變異程度越小。)

        週期性分析

        週期性分析是探索某個變量是否隨時間變化而呈現某種週期變化趨勢。

        貢獻度分析

        貢獻度分析又稱帕累託分析,它的原理是帕累托法則又稱20/80定律。

        相關性分析

        分析連續變量之間線性相關程度的強弱,並用適當的統計指標表示出來的過程稱爲相關分析。

        1.直接繪製散點圖

        判斷兩個變量是否具有線性相關關係最直觀的方法是直接繪製散點圖。

        2.繪製散點圖矩陣

        需要同時考察多個變量間的相關關係時,可利用散點圖矩陣來同時繪製各變量間的散點圖,從而快速發現多個變量間的主要相關性。

        3.計算相關係數

        在二元變量的相關分析過程中比較常用的有Pearson相關係數、Spearman秩相關係數和判定係數。Pearson相關係數一般用於分析兩個連續性變量之間的關係,並且要求連續變量的取值服從正態分佈。不服從正態分佈的變量,分類或等級變量之間的關聯性可採用Spearman秩相關係數來描述。

        易知,只要兩個變量具有嚴格單調的函數關係,那麼它們就是完全Spearman相關的,然而,Pearson相關只有在變量具有線性關係時纔是完全相關的。研究表明,在正態分佈假定下,Spearman秩相關係數與Pearson相關係數在效率上是等價的,而對於連續測量數據,更適合用Pearson相關係數進行分析。

        判定係數。判定係數是相關係數的平方,用r2表示;用來衡量回歸方程對y的解釋程度。判定係數取值範圍:0≤r2≤1。r2越接近於1,表明x與y之間的相關性越強;r2越接近於0,表明兩個變量之間幾乎沒有線性相關關係。

R語言主要數據探索函數

        統計特徵函數

        統計特徵函數用於計算數據的均值、方差、標準差、分位數、相關係數、協方差等,這些統計特徵能反映出數據的整體分佈。

函數名函數功能
mean()計算數據樣本的算術平均數
exp(mean(log()))計算數據樣本的幾何平均數
var()計算數據樣本的方差
sd()計算數據樣本的標準差
cor()計算數據樣本的相關係數矩陣
cov()計算數據樣本的協方差矩陣
moment()計算數據樣本的指定階中心距
summary()計算數據樣本的均值、最大值、最小值、中位數、四分位數

        統計作圖函數

        通過統計作圖函數繪製的圖表可以直觀地反映出數據及統計量的性質及其內在規律,如盒圖可以表示多個樣本的均值,誤差條形圖能同時顯示下限誤差和上限誤差,最小二乘擬合曲線圖能分析兩變量間的關係。

作圖函數名作圖函數功能
barplot()繪製簡單條形圖
pie()繪製餅形圖
hist()繪製二維條形直方圖,可顯示數據的分配情形
boxplot()繪製樣本數據的箱型圖
plot()繪製線性二維圖、折線圖、散點圖


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章