2025年12月15日 08:54:07 来源:沧州泰鼎恒业试验仪器有限公司 >> 进入该公司展台 阅读量:0
附录B 一元线性回归分析
1 一元线性回归方程
假设两个变量x与y之间线性相关,现由试验获得x和y 的一组样本数据(xi,yi),记它们之间的线性关系如下:
yi=a+bxi+εi (i=1,2,……,n,n>2) (B-1)
式中,a、b为待定的估计量;εi为独立、等权的正态偶然误差N(0,σ²); xi为普通自变量,如有随机性,则归入 εi之中。
为求得a 和b,用线性最小二乘法,即令
(B-2)
其正则方程组为:

记
(B-3)
正则方程组可改写为:

求得
(B-4)
由此获得方程
(B-5)
称为上述样本(xi,yi) 的一元线性回归方程,b称为回归系数。在笛卡尔座标系中,上式表示的是一条通过重心(
) 的回归直线。b>0, 表明y 随x 有线性增大的趋势;b<0,表明y 随x有线性减小的趋势。
2 线性回归效果检验
对任意一组样本数据,形式上都可按最小二乘法拟合出一条回归直线。显然,线性拟合的效果会有显著与不显著之分。以下,介绍用方差分析的方法来检验它。
测量值y₁,y₂,…,yn,之间的差异,是有两个方面的原因引起的:一是自变量x 取值的不同;二是测量误差等其他因素的影响。为了对(xi,yi)线性回归的效果进行检验,必须将上述两原因造成的结果分解出来。如图B-1所示,将变量y 的n 个测值yi 与其平均值
的偏离(yi-
) 分解为由变量x 的不同取值引起的回归偏离(
) 和由测量误差等其他因素造成的剩余偏离(
)。并进一步用n个取值的偏离平方和来描述它们,分别记为Σ总、Σ回、Σ剩。

图B-1 一元线性回归直线方差分析
(B-6)
叫总偏离平方和。因为
可以证明,以上交叉项为零。
因此有
Σ总=Σ剩+Σ回
这样就把总偏离平方和Σ总,分解为回归平方和Σ回及剩余平方和Σ剩两部分。回归平方和Σ回反映了在y 总的偏离中因x 和y 的线性关系而引起y 变化的大小。剩余平方和Σ剩反映了在y 总的偏离中除了x 对y 线性影响之外的其他因素而引起y 变化的大小。 这些其他因素包括测量误差x 和y不能用直线关系描述的因素以及其他未加控制的因素等。由式(B-2) 可知,回归分析的要求就是应使剩余平方和最小。即Σ剩愈小,回归效果愈好。
由式(B-4)与式(B-5),可将Σ回写成
(B-7)
而
Σ剩=Σ总-Σ回 (B-8)
由回归平方和及剩余平方和的意义可知,一个线性回归方程是否显著,取决于Σ回及Σ剩的大小。若Σ回愈大而Σ剩愈小,则说明y与x 线性关系愈密切。回归方程显著的检验,通常采用F 检验法。这里,需要构造统计量
(B-9)
式中,v回为回归平方和的自由度;v剩为剩余平方和的自由度。在假定剩余偏离εi服从独立、等权正态随机误差分布的前提下,F是服从F(v回,v剩)分布的。
自由度是指独立观测值的个数。因Σ总中n个观测值yi受平均值
的约束,这就等于有一个测值不是独立的,即失去一个自由度,余下自由度v总=n-1 。∑ 回中只有b是独立变化的,即自由度v回=1。因此,自由度v剩=v总-v回=n-2。
将自由度代回式(B-9)有
(B-10)
在给定显著性水平a下,查F分布的临界值Fa(1,n-2) 。 将计算值F 与Fa(1,n-2)
比较,若
F>Fa(1,n-2) 则认为该回归;反之,则不显著。
通常认为在a=0.01水平上显著,即
F>F0.01(1,n-2)
是回归高度显著;
在α=0.05水平上显著,即
F0.05(1,n-2)≤F≤F0.01(1,n-2)
是回归显著;
在α=0.10水平上显著,即
F0.10(1,n-2)≤F≤F0.05(1,n-2)
是在0.1水平上显著。 式(B-10)的分母

为剩余方差,于是得剩余标准差
(B-11)
它的意义是表征除了x 与y线性关系之外其他因素影响y值偏离得大小。
线性回归效果的检验,可归纳为如下方差分析表,根据该表按照如下步骤进行检验:
(1)依序计算统计量:
Σ总= lyy
Σ回= blxy
Σ剩= Σ总-Σ回


表B-1 方差分析表
偏离 | 平方和 | 自由度 | 标准偏差 | 统计量F | 置信限Fa(1,n-2) | ||
a=0.0 | α=0.05 | α=0.1 | |||||
回归 | Σ回= blxy | 1 | ![]() | ||||
剩余 | Σ剩= Σ总-Σ回 |
n-2 | ![]() | ||||
总和 | Σ总= lyy | n-1 | 显著否 | 显著否 | 显著否 | ||
(2)按一定显著水平α和自由度n-2 查 F 分布表,得到Fa(1,n-2) 的数值,比较统计量F与Fa(1,n-2)的大小,作出判断结论。
3 回归预测区间
在某个非试验点x=x0处,按回归方程y=a+bx 求得回归值
。,需要预报
。偏离实际值y0有多大。这是要解决一个回归预测的精度问题。
这里,为讨论方便,仍假设测量值y及回归值
均服从正态分布。可构造一个服从t 分布的统计量
(B-12)
在给定的置信水平p下,有如下的预测区间
(B-13)
式中
(B-14)
λ可查t 分布临界值获得。
式(B-13) 与(B-14) 表明,用回归方程预测的偏差△除与p、n及S 有关外,还与观测x 有关。当x 靠近x, △小;当x 远离x 时,△就大。特别当x 在 x 附近,n 又足够大时,可简 化得y 的预测区间
(B-15)
λ可查t 分布临界值获得。