1 預測區間與置信區間的差別
預測區間估計(prediction interval estimate):利用估計的迴歸方程,對於自變量 x 的一個給定值 x0 ,求出因變量 y 的一個個別值的估計區間。變量的估計叫預測區間,預測區間反映了單個數值的不確定性;
置信區間估計(confidence interval estimate):利用估計的迴歸方程,對於自變量 x 的一個給定值 x0 ,求出因變量 y 的平均值的估計區間。參數的估計叫置信區間,置信區間反映了預測均值的不確定性。
例如,有迴歸方程:
工作量=2*規模+3,
當規模=10, 預測的y值的平均值爲23,但是工作量的實際值可以有無數個,如(23.01,23.2,22.1,22.34,…..),這些實際值會在一個區間內浮動,該區間即爲預測區間。如果隨機抽多個樣本,比如樣本1(23.01,23.2,22.1),樣本2(23.2,22.1,22.34),每個樣本的均值會在一個區間內浮動,該區間即爲置信區間。
2 預測區間與置信區間誰窄誰寬?
平均值的預測僅存在抽樣誤差。單個值的預測除了抽樣誤差外,還有其他干擾因素,所以預測區間PI總是要比對應的置信區間CI大。
針對均值的置信區間肯定要窄一些,而具體想預測某一個體值,那區間肯定要寬,因爲誤差會很大。
比如,讓你預測一個公司中項目的平均生產率,與讓你預測一個項目的生產率,你覺得哪個誤差更大呢?對於一個公司的均值,即使你什麼信息都不知道,估計預測的也差不到哪兒去,而讓你預測某個項目的生產率,那你可能就不知所措了。
3 如何近似計算預測區間?
3.1 預測區間的簡單計算公式
如果準確計算預測區間,公式是比較複雜的,而且需要建立方程的所有樣本的數據,在實踐中並不推薦這麼做。所以通常我們都是近似計算預測區間。
預測區間的上限=預測值+1.96 殘差的標準差;
預測區間的下限=預測值-1.96 殘差的標準差;
上述公式是基於迴歸方程的理論假設推理出來的:
線性迴歸中,我們假定,對於每一特定的x值,其對應的y值應該是來自一個服從某一均值和標準差的分佈,y是服從正態分佈的。
在建立方程之前我們對此做了假設檢驗。
1.96倍標準差對應的區間,就是置信度爲95%的區間。
殘差的標準差在我們進行迴歸分析時,minitab的計算結果已經給出來了:
3.2 當對Y做了變換時,預測區間如何計算
在實際建模時,如果對y做了對數變換,比如:
lny=ax+b
則此時得到的殘差標準差是lny的,不是y的,所以計算lny的預測區間爲:
lny預測區間上限=ax+b+1.96S
則y的預測區間上限應該是:
y=exp(ax+b+1.96S)
y的預測區間下限應該是:
y=exp(ax+b-1.96S)
如果對y做了其他變化,道理類似。