R語言ggplot包之數據分佈彙總

引言

我們經常想觀察一批數據的分佈形態,直方圖、密度圖、箱線圖、小提琴圖和點圖等都是很好的實現形式。在此,我們簡略介紹直方圖、密度圖和箱線圖,這種三種圖形對我們來說更爲常用。

直方圖

很多人沒搞清楚條形圖和直方圖之間的區別。條形圖主要用於展示分類數據,即名義數據,各組分開而立。而直方圖多用於展示數值型數據,各組相依。

單組直方圖

最基本的語句就是在ggplot語句後再加geom_histogram()即可。

library(gcookbook)
library(ggplot2)
ggplot(faithful, aes(x=waiting)) + geom_histogram()

這裏寫圖片描述
直方圖默認最大爲30組,我們可以使用*binwidth來改變。

ggplot(faithful, aes(x=waiting)) +geom_histogram(binwidth=8, fill="white", colour="black")#改爲8組

這裏寫圖片描述

分組直方圖

分組直方圖做法與其他圖形一樣,我們用到facet_grid(var ~ .),該方法是以var變量進行分類,做多個圖形,非一個圖形中做多個直方圖。如果變量爲數字,應當因子化。

library(MASS) #取binwidth數據
ggplot(birthwt, aes(x=bwt))+geom_histogram(fill="white", colour="black")+facet_grid(smoke ~ .)

這裏寫圖片描述

核密度曲線

如果你想要做密度曲線,則用geom_density映射一連續變量。

ggplot(faithful, aes(x=waiting)) + geom_density()
#你也可以將包住的部分給填充顏色
ggplot(faithful, aes(x=waiting)) +
geom_density(fill="blue", alpha=.2) +
xlim(35, 105)
#如果你不喜歡線與下方相連,可以使用另外一種方式
ggplot(faithful, aes(x=waiting)) + geom_line(stat="density") +
expand_limits(y=0)#expand_limits使y軸範圍包含0值。
#密度曲線與直方圖共戲
ggplot(faithful, aes(x=waiting, y=..density..)) +
geom_histogram(fill="cornsilk", colour="grey60", size=.2) +
geom_density() +
xlim(35, 105)

這裏寫圖片描述
這裏寫圖片描述
這裏寫圖片描述
這裏寫圖片描述

分組密度曲線

birthwt1 <- birthwt
birthwt1$smoke <- factor(birthwt1$smoke)
ggplot(birthwt1, aes(x=bwt, fill=smoke)) + geom_density(alpha=.3)

這裏寫圖片描述

箱線圖

箱線圖應用十分廣泛,特別是在比較多組數據上。上代碼,看看如何實用。

ggplot(birthwt, aes(x=factor(race), y=bwt)) + geom_boxplot()
#如果存在多個多個離羣點,可用outlier.sizeoutlier.shape進行大小和形狀設置
ggplot(birthwt, aes(x=factor(race), y=bwt)) +
geom_boxplot(outlier.size=1.5, outlier.shape=21)
#爲了看數據分佈是否有偏,我們還可以增加均值與中值進行比較,主要用stat_summary把均值以菱形相展示。
ggplot(birthwt, aes(x=factor(race), y=bwt)) + geom_boxplot() +
stat_summary(fun.y="mean", geom="point", shape=23, size=3, fill="white")

這裏寫圖片描述
這裏寫圖片描述
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章