如何近似計算迴歸方程的預測區間？

1 預測區間與置信區間的差別

預測區間估計(prediction interval estimate)：利用估計的迴歸方程，對於自變量 x 的一個給定值 x0 ，求出因變量 y 的一個個別值的估計區間。變量的估計叫預測區間，預測區間反映了單個數值的不確定性；

置信區間估計(confidence interval estimate)：利用估計的迴歸方程，對於自變量 x 的一個給定值 x0 ，求出因變量 y 的平均值的估計區間。參數的估計叫置信區間，置信區間反映了預測均值的不確定性。

例如，有迴歸方程：

工作量=2*規模+3，

當規模=10，預測的y值的平均值爲23，但是工作量的實際值可以有無數個，如（23.01，23.2，22.1，22.34，…..），這些實際值會在一個區間內浮動，該區間即爲預測區間。如果隨機抽多個樣本，比如樣本1（23.01，23.2，22.1），樣本2（23.2，22.1，22.34），每個樣本的均值會在一個區間內浮動，該區間即爲置信區間。

2 預測區間與置信區間誰窄誰寬？

平均值的預測僅存在抽樣誤差。單個值的預測除了抽樣誤差外，還有其他干擾因素，所以預測區間PI總是要比對應的置信區間CI大。

針對均值的置信區間肯定要窄一些，而具體想預測某一個體值，那區間肯定要寬，因爲誤差會很大。

比如，讓你預測一個公司中項目的平均生產率，與讓你預測一個項目的生產率，你覺得哪個誤差更大呢？對於一個公司的均值，即使你什麼信息都不知道，估計預測的也差不到哪兒去，而讓你預測某個項目的生產率，那你可能就不知所措了。

3 如何近似計算預測區間？

3.1 預測區間的簡單計算公式

如果準確計算預測區間，公式是比較複雜的，而且需要建立方程的所有樣本的數據，在實踐中並不推薦這麼做。所以通常我們都是近似計算預測區間。

預測區間的上限=預測值+1.96 殘差的標準差；

預測區間的下限=預測值-1.96 殘差的標準差；

上述公式是基於迴歸方程的理論假設推理出來的：

線性迴歸中，我們假定，對於每一特定的x值，其對應的y值應該是來自一個服從某一均值和標準差的分佈，y是服從正態分佈的。

在建立方程之前我們對此做了假設檢驗。

1.96倍標準差對應的區間，就是置信度爲95%的區間。

殘差的標準差在我們進行迴歸分析時，minitab的計算結果已經給出來了：

3.2 當對Y做了變換時，預測區間如何計算

在實際建模時，如果對y做了對數變換，比如：

lny=ax+b

則此時得到的殘差標準差是lny的，不是y的，所以計算lny的預測區間爲：

lny預測區間上限=ax+b+1.96S

則y的預測區間上限應該是：

y=exp(ax+b+1.96S)

y的預測區間下限應該是：

y=exp(ax+b-1.96S)

如果對y做了其他變化，道理類似。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何近似計算迴歸方程的預測區間？

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

COSMIC規模度量案例集四：業務應用軟件案例—新增用戶

COSMIC規模度量案例集三：業務應用軟件案例—頁面維護

COSMIC規模度量案例集二：業務應用軟件案例——銀行卡簽約/解約

COSMIC規模度量案例集（一）

敏捷實踐大全

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結