如何近似计算回归方程的预测区间？

1 预测区间与置信区间的差别

预测区间估计(prediction interval estimate)：利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的一个个别值的估计区间。变量的估计叫预测区间，预测区间反映了单个数值的不确定性；

置信区间估计(confidence interval estimate)：利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的平均值的估计区间。参数的估计叫置信区间，置信区间反映了预测均值的不确定性。

例如，有回归方程：

工作量=2*规模+3，

当规模=10，预测的y值的平均值为23，但是工作量的实际值可以有无数个，如（23.01，23.2，22.1，22.34，…..），这些实际值会在一个区间内浮动，该区间即为预测区间。如果随机抽多个样本，比如样本1（23.01，23.2，22.1），样本2（23.2，22.1，22.34），每个样本的均值会在一个区间内浮动，该区间即为置信区间。

2 预测区间与置信区间谁窄谁宽？

平均值的预测仅存在抽样误差。单个值的预测除了抽样误差外，还有其他干扰因素，所以预测区间PI总是要比对应的置信区间CI大。

针对均值的置信区间肯定要窄一些，而具体想预测某一个体值，那区间肯定要宽，因为误差会很大。

比如，让你预测一个公司中项目的平均生产率，与让你预测一个项目的生产率，你觉得哪个误差更大呢？对于一个公司的均值，即使你什么信息都不知道，估计预测的也差不到哪儿去，而让你预测某个项目的生产率，那你可能就不知所措了。

3 如何近似计算预测区间？

3.1 预测区间的简单计算公式

如果准确计算预测区间，公式是比较复杂的，而且需要建立方程的所有样本的数据，在实践中并不推荐这么做。所以通常我们都是近似计算预测区间。

预测区间的上限=预测值+1.96 残差的标准差；

预测区间的下限=预测值-1.96 残差的标准差；

上述公式是基于回归方程的理论假设推理出来的：

线性回归中，我们假定，对于每一特定的x值，其对应的y值应该是来自一个服从某一均值和标准差的分布，y是服从正态分布的。

在建立方程之前我们对此做了假设检验。

1.96倍标准差对应的区间，就是置信度为95%的区间。

残差的标准差在我们进行回归分析时，minitab的计算结果已经给出来了：

3.2 当对Y做了变换时，预测区间如何计算

在实际建模时，如果对y做了对数变换，比如：

lny=ax+b

则此时得到的残差标准差是lny的，不是y的，所以计算lny的预测区间为：

lny预测区间上限=ax+b+1.96S

则y的预测区间上限应该是：

y=exp(ax+b+1.96S)

y的预测区间下限应该是：

y=exp(ax+b-1.96S)

如果对y做了其他变化，道理类似。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何近似计算回归方程的预测区间？

再谈23种设计模式（3）：行为型模式（学习笔记）

Power Automate Desktop 安装完，登录后老是提示one driver 错误

微前端学习笔记(4):从微前端到微模块之EMP与hel-micro方案探索

微前端学习笔记（1）：微前端总体架构概述，从微服务发微

985 硕士程序员，空窗 4 个月没有 Offer！

一文搞懂 Spring 循环依赖

赛博斗地主——使用大语言模型扮演Agent智能体玩牌类游戏。

VScode右键打开(添加到右键)

记一次 .NET某工控视觉自动化系统卡死分析

WindowsServer--SQL Server搭建主从同步实现读写分离 - 事务性分发

COSMIC規模度量案例集四：業務應用軟件案例—新增用戶

COSMIC規模度量案例集三：業務應用軟件案例—頁面維護

COSMIC規模度量案例集二：業務應用軟件案例——銀行卡簽約/解約

COSMIC規模度量案例集（一）

敏捷實踐大全

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結