基於R統計分析——探索性數據分析

數據的統計分析分爲描述性統計分析和統計推斷兩部分, 前者又稱爲探索性統計分析, 它是通過繪製統計圖形、編制統計表格、計算統計量等方法來探索數據的主要分佈特徵, 揭示其中存在的規律. 探索性數據分析是進行後期統計推斷的基礎.
本文着重於數據集的數字化探索。程序包DAAG中有內嵌數據集“possum”,它包括了從維多利亞南部到皇后區的七個地區的104只負鼠(possum)的年齡、尾巴的長度、總長度等14個特徵值,選用這套數據集進行分析。

#數據概況
library(DAAG)
data(possum)
nrow(possum)   #顯示數據集的行、列、維度
ncol(possum)
dim(possum)
head(possum)  #顯示數據集的前若干條
attributes(possum)  #獲取數據集屬性列表

這裏寫圖片描述

str(possum)   #獲取數據樣本數、變量數、各變量的類型及取值情況

這裏寫圖片描述

summary(possum) #獲取數據集變量概況

這裏寫圖片描述

#變量詳情
library(Hmisc)
describe(possum[,1:3])

這裏寫圖片描述
備註:對於每一變量,給出了樣本總個數(n),缺失樣本數(missing)、水平個數(unique),並列出每一水平的取值、頻數和頻率。這裏需要說明的是,對於case變量,輸出結果給出了頻率最低和最高的5個水平值,在數據分佈有偏情況下,這些水平值很有可能成爲異常值。

library(fBasics)  #用於做時間序列統計分析包,也可用於一般數據集
basicStats(possum$case)

這裏寫圖片描述
備註:輸出結果包括前面給出的樣本數(nobs),缺失值(NAs),最小值最大值,同時也有特有的指標,變量取值之和(Sum),標準誤差均值(SE Mean)、95%的置信水平上下限、方差、標準誤差,以及兩個分佈指標偏度和峯度。

#分佈指標  (這裏主要介紹兩個重要分佈指標——偏度和峯度,一些常見的概率分佈傾向於用直方圖等可視化方式來表示)
library(timeDate)
skewness(possum[,6:7]) #計算這兩列變量的偏度

kurtosis(possum[,6:7]) #計算這兩列變量的峯度

備註:偏度用來衡量數據的堆成程度,以正太分佈爲基準。當服從正太分佈時,偏度爲0;當介於[-1,1]之間時,說明數據分佈的對稱性較強;當絕對值大於1時,則認爲數據存在顯著偏倚,爲正時有右偏的趨勢,反之左偏。
峯度用來衡量數據分佈形態的陡緩程度,以正太分佈爲基準。當值爲0時,說明與正太分佈相同,即標準峯度;當峯度大於0時,則表示該數據分佈與正太分佈相比較爲陡峭,爲尖頂峯度;當峯度小於0時,則表示該數據分佈與正太分佈相比較爲平坦,爲平頂峯度。

#缺失值
library(mice)
md.pattern(possum)  #顯示數據集中缺失值分佈的情況

這裏寫圖片描述
備註:最左邊一列:101表示無缺失值樣本總數,2表示age缺失2個樣本,1表示footlgth缺失1個樣本;最下邊一行對應每個屬性缺失的樣本個數,其中最後一個3表示總缺失值個數;最右邊一列表示對應行幾個變量發生缺失的情況。

#相關性
cor(possum$case,possum$site)
var=c(5:9)
cor_matrix=cor(possum[var],use="pairwise") #對5個變量兩兩計算相關係數
library(ellipse)#可視化相關圖
plotcorr(cor_matrix,col=rep(c("white","black"),5))

這裏寫圖片描述
備註:圓形的寬窄表示相關性的高低,兩變量對應的圓形越窄,表明其相關性越高。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章