文章目錄
描述性統計分析
描述性統計所提取的統計信息,我們成爲統計量,其內容包括以下幾方面:
- 頻數與頻率
- 頻數:數據中類別變量每個不同取值出現的次數
- 頻率:每個類別變量的頻數與總次數比值,通常百分比表示.
- 集中趨勢分析
- 均值:即平均值,其爲一組數據的總和除以數據的個數
- 中位數 :將一組數據升序排列,位於該組數據中間位置的值,就是中位數.如果數據個數爲偶數,則取中間兩個數值的均值
- 衆數:一組數據中出現次數最多的值
- 分位數
- 離散程度分析
- 極差:指一組數據中,最大值與最小值之差
- 方差:體現一組數據中,每個元素與均值偏離的大小
- 標準差:爲方差的開方
- 三者關係:
- 方差(標準差) 可以體現數據分散性,方差(標準差)越大,數據越分散,方差(標準差)越小,數據越集中
- 方差(標準差)可以體現數據的波動性(穩定性),方差(標準差)越大,數據波動越大,方差(標準差)越小,數據波動性越小
- 當數據較大時,可以用n代替n-1
- 分佈形狀
- 偏度
- 峯度
變量分類:
- 類別變量
- 無序類別變量(名義變量)
- 有序類別變量(等級變量)
- 數值變量
- 連續變量
- 離散變量
分位數
- 1/4分位
Q1_index=1+(n-1)*0.25
- 2/4分位
Q2_index=1+(n-1)*0.50
- 3/4分位
Q3_index=1+(n-1)*0.75
- 其中,index從1開始,n位元素個數
點估計與區間估計
點估計:
就是使用樣本的統計量去代替總體參數. 例如要求鳶尾花平均花瓣長度,可用樣本的均值來估計總體的均值
區間估計:
區間估計根據樣本統計量,計算出一個可能的區間與概率(信心指數值) , 表示總體的參數會有多少概率位於該區間中.我們稱爲置信區間,而區間估計指定的概率,我們稱爲*置信度**. 例如鳶尾花花瓣長度有70%可能在3.4cm-3.8cm之間,那3.4-3.8cm就是置信區間,而70%就是置信度.
區別:
點估計用一個值來代替總體參數值,而區間估計是使用一個置信區間與置信度,表示總體參數有多少可能(置信度)會在該範圍(置信區間)內.
中心極限定理:
中心極限定理指的是給定一個任意分佈的總體。我每次從這些總體中隨機抽取 n 個抽樣,一共抽 m 次。 然後把這 m 組抽樣分別求出平均值。 這些平均值圍繞在總體均值左右,接近正態分佈; 當樣本量足夠大時,樣本均值服從正態分佈.
- 樣本均值構成的正態分佈,其均值等於總體均值μ
- 樣本均值構成的正態分佈,其標準差等於總體標準差σ除以 .
- 樣本均值分佈的標準差,我們稱爲 標準誤差,簡稱標準誤.
正態分佈
- ±1 σ包含68%
- ±2 σ包含95%
- ±3 σ包含99.7%
檢驗
假設檢驗
Z檢驗
T檢驗
迴歸分析
迴歸分析_百度百科
迴歸分析(regression analysis)指的是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。
線性迴歸-直的
- 擬合:構建一種算法,使該算法能夠符合真實數據
多元線性迴歸
線性迴歸模型評估
當我們建立好模型後,模型效果如何?我們可以用如下指標評價衡量
-
(mean squared error)
-
(root mean squared error)
-
(mean absolute error)
-