(ISLR-note)Chapter3-1簡單線性迴歸

簡單線性迴歸

1.估計係數(estimating coefficient)

選擇Beta0,Beta1使殘差平方和RSS最小。

2.殘差平方和(residual sum of squares)

   RSS = e1^2  + e2^2 + ... + en^2
       =(y1-Beta0-Beta1*x1)^2 + (y2-Beta0-Beta1*x2)^2 + ... + (yn-Beta0-Beta1*xn)^2

3.樣本均值(sample mean μˆ)

樣本均值和總體均值的含義不同,但一般來說,樣本均值能提供對總體均值的良好估計。

①Q:單一的估計值u^偏離真值會有多遠?
通過計算u^的標準誤差(Standard Error, SE(u^))來回答這個問題!

Var(u^) = SE(uhead)^2 = sigma^2 / n
其中,sigma是變量Y的每個實現值yi的標準差。
該公式表明,估計值u^偏離真實值的偏差隨着觀測量n的增加而減少!

②殘差標準誤RSE

sigma是變量Y的每個實現值yi的標準差

對sigma^2的估計稱爲殘差標準誤(residual standard error,RSE),由公式 RSE = 根號(RSS / (n-2)) 所定義

③置信區間(confidence interval)
標準誤差可用於計算置信區間

95%置信區間被定義爲一個取值範圍:該範圍有95%的概率會包括未知參數的真實值

Beta1的95%置信區間約爲:
[Beta1^ - 2·SE(Beta1^) , Beta1^ +2·SE(Beta1^)]
Beta0的95%置信區間約爲:
[Beta0^ - 2·SE(Beta0^) , Beta1^ +2·SE(Beta0^)]

4.假設檢驗

標準誤差也可以用來對係數進行假設檢驗。最常用的假設檢驗包括對
(1)零假設H0: X和Y之間沒有關係
(2)備擇假設Ha: X和Y之間有一定關係
進行檢驗。
爲了檢驗零假設,需要確定Beta1^(Beta的估計值)距離零是否足夠遠,從而能夠確信Beta1是非零。

Q:多遠是足夠遠呢?怎樣才能拒絕零假設呢?
引入 t統計量:它測量了Beta1^偏離0的標準偏差。如果X和Y無關,則下式將服從自由度爲n-2的 t 分佈。

t = (Beta1^ - 0) / SE(Beta1^) (3.14)

假設Beta1 = 0,計算任意觀測值大於等於|t|的概率就十分簡單了,我們稱這個概率爲p值,p值可以解釋如下:

一個很小的p值表示,在預測變量和響應變量之間的真實關係未知的情況下,不太可能完全由於偶然而觀察到預測變量和響應變量之間的強相關。

a small p-value indicates that it is unlikely to observe such a substantial association between the pre- dictor and the response due to chance, in the absence of any real association between the predictor and the response.

如果p值足夠小,我們便拒絕零假設,即聲明X和Y有關係。
典型的拒絕零假設的臨界p值是5%或1%,當n=30,這兩個p值對應的t統計量分別爲 2 2.75。

5.評價模型的準確性

量化模型擬合數據的程度,通常用兩個量:殘差標準誤RSER^2統計量

①殘差標準誤RSE: 對模型 失擬(lack of fit) 的度量

是對epis的標準偏差的估計。大體而已,它是響應值會偏離真正的迴歸直線的平均值。

The RSE provides an absolute measure of lack of fit of the model (3.5) to the data. But since it is measured in the units of Y , it is not always clear what constitutes a good RSE.

②R^2 統計量(R^2 statistic):衡量X和Y的線性關係

R^2 = 1 - RSS/TSS
其中,TSS(total sum of squares)是總平方和,yi - y均之和,RSS爲 yi - yihead之和。

R^2測量的是Y的變異中能被X解釋的部分所佔比例(proportion of variability in Y that can be explained using X)。值域爲[0,1]。值越接近1,說明迴歸可以解釋響應變量的大部分變異;值越接近0說明迴歸沒有解釋太多響應變量的變異,這可能因爲線性模型是錯誤的,也可能因爲固有誤差項epsi^2較大。

注:相關性Cor(X,Y)可以代替R^2評估線性模型

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章