基於R統計分析——探索性數據分析

數據的統計分析分爲描述性統計分析和統計推斷兩部分, 前者又稱爲探索性統計分析, 它是通過繪製統計圖形、編制統計表格、計算統計量等方法來探索數據的主要分佈特徵, 揭示其中存在的規律. 探索性數據分析是進行後期統計推斷的基礎.
本文着重於數據集的數字化探索。程序包DAAG中有內嵌數據集“possum”，它包括了從維多利亞南部到皇后區的七個地區的104只負鼠(possum)的年齡、尾巴的長度、總長度等14個特徵值，選用這套數據集進行分析。

#數據概況
library(DAAG)
data(possum)
nrow(possum)   #顯示數據集的行、列、維度
ncol(possum)
dim(possum)
head(possum)  #顯示數據集的前若干條

attributes(possum)  #獲取數據集屬性列表

str(possum)   #獲取數據樣本數、變量數、各變量的類型及取值情況

summary(possum) #獲取數據集變量概況

#變量詳情
library(Hmisc)
describe(possum[,1:3])

備註：對於每一變量，給出了樣本總個數(n)，缺失樣本數(missing)、水平個數(unique),並列出每一水平的取值、頻數和頻率。這裏需要說明的是，對於case變量，輸出結果給出了頻率最低和最高的5個水平值，在數據分佈有偏情況下，這些水平值很有可能成爲異常值。

library(fBasics)  #用於做時間序列統計分析包，也可用於一般數據集
basicStats(possum$case)

備註：輸出結果包括前面給出的樣本數(nobs)，缺失值（NAs），最小值最大值，同時也有特有的指標，變量取值之和（Sum）,標準誤差均值（SE Mean）、95%的置信水平上下限、方差、標準誤差，以及兩個分佈指標偏度和峯度。

#分佈指標  （這裏主要介紹兩個重要分佈指標——偏度和峯度，一些常見的概率分佈傾向於用直方圖等可視化方式來表示）
library(timeDate)
skewness(possum[,6:7]) #計算這兩列變量的偏度

kurtosis(possum[,6:7]) #計算這兩列變量的峯度

備註：偏度用來衡量數據的堆成程度，以正太分佈爲基準。當服從正太分佈時，偏度爲0；當介於[-1,1]之間時，說明數據分佈的對稱性較強；當絕對值大於1時，則認爲數據存在顯著偏倚，爲正時有右偏的趨勢，反之左偏。
峯度用來衡量數據分佈形態的陡緩程度，以正太分佈爲基準。當值爲0時，說明與正太分佈相同，即標準峯度；當峯度大於0時，則表示該數據分佈與正太分佈相比較爲陡峭，爲尖頂峯度；當峯度小於0時，則表示該數據分佈與正太分佈相比較爲平坦，爲平頂峯度。

#缺失值
library(mice)
md.pattern(possum)  #顯示數據集中缺失值分佈的情況

備註：最左邊一列：101表示無缺失值樣本總數，2表示age缺失2個樣本，1表示footlgth缺失1個樣本；最下邊一行對應每個屬性缺失的樣本個數，其中最後一個3表示總缺失值個數；最右邊一列表示對應行幾個變量發生缺失的情況。

#相關性
cor(possum$case,possum$site)
var=c(5:9)
cor_matrix=cor(possum[var],use="pairwise") #對5個變量兩兩計算相關係數
library(ellipse)#可視化相關圖
plotcorr(cor_matrix,col=rep(c("white","black"),5))

備註：圓形的寬窄表示相關性的高低，兩變量對應的圓形越窄，表明其相關性越高。

基於R統計分析——探索性數據分析

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

微調真的能讓LLM學到新東西嗎:引入新知識可能讓模型產生更多的幻覺

iNeuOS工業互聯網操作系統，增加電力IEC104協議

微服務實踐k8s&dapr開發部署實驗（3）訂閱發佈

kbgressdb之數據結構V0.2

聚類有效性——最佳聚類數

午間閱讀

目標檢測——背景更新法

檢測出運動目標後提取邊界兩個函數 cvFindContours和cvBoundingRect

相關分析與迴歸分析（一）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結