如何近似計算迴歸方程的預測區間?

    1 預測區間與置信區間的差別

 

    預測區間估計(prediction interval estimate):利用估計的迴歸方程,對於自變量 x 的一個給定值 x0 ,求出因變量 y 的一個個別值的估計區間。變量的估計叫預測區間,預測區間反映了單個數值的不確定性;

 

    置信區間估計(confidence interval estimate):利用估計的迴歸方程,對於自變量 x 的一個給定值 x0 ,求出因變量 y 的平均值的估計區間。參數的估計叫置信區間,置信區間反映了預測均值的不確定性。

    例如,有迴歸方程:

    工作量=2*規模+3,

    當規模=10, 預測的y值的平均值爲23,但是工作量的實際值可以有無數個,如(23.01,23.2,22.1,22.34,…..),這些實際值會在一個區間內浮動,該區間即爲預測區間。如果隨機抽多個樣本,比如樣本1(23.01,23.2,22.1),樣本2(23.2,22.1,22.34),每個樣本的均值會在一個區間內浮動,該區間即爲置信區間。

 

    2 預測區間與置信區間誰窄誰寬?

 

    平均值的預測僅存在抽樣誤差。單個值的預測除了抽樣誤差外,還有其他干擾因素,所以預測區間PI總是要比對應的置信區間CI大。

    針對均值的置信區間肯定要窄一些,而具體想預測某一個體值,那區間肯定要寬,因爲誤差會很大。

    比如,讓你預測一個公司中項目的平均生產率,與讓你預測一個項目的生產率,你覺得哪個誤差更大呢?對於一個公司的均值,即使你什麼信息都不知道,估計預測的也差不到哪兒去,而讓你預測某個項目的生產率,那你可能就不知所措了。

 

    3 如何近似計算預測區間?

    3.1 預測區間的簡單計算公式

    如果準確計算預測區間,公式是比較複雜的,而且需要建立方程的所有樣本的數據,在實踐中並不推薦這麼做。所以通常我們都是近似計算預測區間。

    預測區間的上限=預測值+1.96 殘差的標準差;

    預測區間的下限=預測值-1.96 殘差的標準差;

    上述公式是基於迴歸方程的理論假設推理出來的:

    線性迴歸中,我們假定,對於每一特定的x值,其對應的y值應該是來自一個服從某一均值和標準差的分佈,y是服從正態分佈的。

    在建立方程之前我們對此做了假設檢驗。

    1.96倍標準差對應的區間,就是置信度爲95%的區間。

    殘差的標準差在我們進行迴歸分析時,minitab的計算結果已經給出來了:

    3.2 當對Y做了變換時,預測區間如何計算

    在實際建模時,如果對y做了對數變換,比如:

    lny=ax+b

    則此時得到的殘差標準差是lny的,不是y的,所以計算lny的預測區間爲:

    lny預測區間上限=ax+b+1.96S

    則y的預測區間上限應該是:

    y=exp(ax+b+1.96S)

 

    y的預測區間下限應該是:

    y=exp(ax+b-1.96S)

 

    如果對y做了其他變化,道理類似。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章