您好,欢迎来到意榕旅游网。
搜索
您的当前位置:首页应用回归分析课后习题

应用回归分析课后习题

来源:意榕旅游网
y11x11x12x1p01y21x21x22x2p123.1  +即yn1xn1xn2xnppny=x+

基本假定

(1)解释变量x1,x2...,xp是确定性变量,不是随机变量,且要求rank(X)=p+1(2)随机误差项具有零均值和等方差,即高斯马尔柯夫条件 (3)对于多元线性回归的正态分布假定条件的矩阵模型为 ~N(0,2In) 随即向量y~N(X,2In) 3.2

当(XX)存在时,回归参数的最小二乘估计为(XTX)1XTY,

T1要求出回归参数,即要求XTX是一个非奇异矩阵,XTX0,所以可逆矩阵XTX为p+1阶的满秩矩阵,又根据两个矩阵乘积的秩不大于每一因子的秩rank(X)p+1,而X为n(p+1)阶矩阵,于是应有np+1 结论说明,要想用最小二乘法估计多元线性回归模型的未知参数,样本量n必须大于模型自变量p的个数。 3.3

SSE(yy)2e12e22en21nn1112E()E(SSE)E(e)E(e2)np1np11np11nnn1112[D(e)(E(e))]D(e)(1h)2 np11np11np11nn11(1h)2(n(p1))22np111np12n注tr(H)hp11n3.4不能断定这个方程一定很理想,因为样本决定系数与回归方程中自变量的数目以及样本量n有关,当样本量个数n太小,而自变量又较多,使样本量与自变量的个数接近时,R2易接近1,其中隐藏一些虚假成分。

3.5当接受H0时,认定在给定的显着性水平下,自变量x1,x2,xp对因变量y无显着影响,于是通过x1,x2,xp去推断y也就无多大意义,在这种情况下,一方面可能这个问题本来应该用非线性模型去描述,而误用了线性模型,使得自变量对因变量无显着影响;另一方面可能是在考虑自变量时,把影响因变量y的自变量漏掉了,可以重新考虑建模问题。

当拒绝H0时,我们也不能过于相信这个检验,认为这个回归模型已经完美了,当拒绝H0时,我们只能认为这个模型在一定程度上说明了自变量x1,x2,xp与自变量y的线性关系,这时仍不能排除排除我们漏掉了一些重要的自变量。

3.6中心化经验回归方程的常数项为0,回归方程只包含p个参数估计值1,2,p比一般的经验回归方程减少了一个未知参数,在变量较

多时,减少一个未知参数,计算的工作量会减少许多,对手工计算尤为重要。

在用多元线性回归方程描述某种经济现象时,由于自变量所用的单位大都不同,数据的大小差异也往往很大,这就不利于在同一标准上进行比较,为了消除量纲不同和数量级的差异带来的影响,就需要将样本数据标准化处理,然后用最小二乘法估计未知参数,求得标准化回归系数。 3.7

对y01x12x2pxp进行中心化处理得

yy1(x1x1)2(x2x2)p(xpxp)再将等式除以因变量的样

本标准差Lyy则有

y*=

yy12p(x1x1)(x2x2)(xpxp)LyyLyyLyyLyy1L11(x1x1)Lyy**2L22(x2x2)Lyy**L11**L22pLpp(xpxp)LyyLpp=

1x12x2pxp

所以j*jLjjLyy,j1,2,p

3.8 (ij为相关阵(rij)pp第i行,第j列的代数余子式)

12=11•22(1)12(1)111r23r321r21r23r3111r13r311r12;3(1)22r21r23r31 22(1r23)(1r13)

3.9 Fj=

SSR(j)SSR(j)SSE(j)SSE(j)SSE(j)1(np1)(np1)(np1)()SSESSESSESSE(j)SSE(np1)2rSSE(j)SSE(j)1yj2(np1)()(np1)(ryj)(np1)()22SSE(j)SSE(j)SSE(j)1ryj1ryj222小于1,Fj与ryj一一对应,所以Fj与ryj等价 ryj3.10

SSRnp1FpSSEF(np1)pSSRnp1np1pSSEpnp1SSRSSRSSRSSESSRpSSESSER2

np1SSRSSRSSESSESSTSST(1)pSSESSE证得R23.11

(1)

F

F(np1)p相关性 y Pearson 相关性 显着性(双侧) N x1 Pearson 相关性 显着性(双侧) N x2 Pearson 相关性 显着性(双侧) N x3 Pearson 相关性 显着性(双侧) N y 1 x1 .556 .095 10 10 1 x2 .731 .016 10 .113 .756 10 10 1 *x3 .724 .018 10 .398 .2 10 .7 .101 10 10 1 * .556 .095 10 .731 .016 10 .724 .018 10 **.113 .756 10 .398 .2 10 .7 .101 10 10 *. 在 0.05 水平(双侧)上显着相关。 (2)(3)(4)(5)(6)

模型汇总 标准 估计的误模型 1 R .8 aR 方 .806 调整 R 方 .708 差 23.44188 a. 预测变量: (常量), x3, x1, x2。 Anova 模型 1 回归 残差 总计 平方和 13655.370 3297.130 16952.500 df 3 6 9 均方 4551.790 9.522 F 8.283 Sig. .015 ab a. 预测变量: (常量), x3, x1, x2。 b. 因变量: y 系数 非标准化系数 模型 1 (常量) x1 x2 x3 a. 因变量: y B -348.280 3.7 7.101 12.447 标准 误差 176.459 1.933 2.880 10.569 .385 .535 .277 标准系数 试用版 t -1.974 1.942 2.465 1.178 Sig. .096 .100 .049 .284 a1回归方程为 y= -348.280+3.7x1+7.101x2+12.447x3 2复相关系数R=0.8,决定系数为0.806,拟合度较高。

3方差分析表,F=8.283,P值=0.015<0.05,表明回归方程高度显着,说明x1,x2,x3,整体上对y有高度显着的线性影响

4回归系数的显着性检验x1工业总产值的P值=0.100 X2农业总产值的P值=0.049 X3居民非产品支出的P值=0.284 在0.1的显着性水平上,x3未通过检验,应将其剔除掉 输入/移去的变量 模型 1 输入的变量 x2, x1 ab移去的变量 方法 . 输入 a. 已输入所有请求的变量。 b. 因变量: y 模型汇总 标准 估计的误模型 1 R .872 aR 方 .761 调整 R 方 .692 差 24.08112 输入/移去的变量 模型 1 输入的变量 x2, x1 ab移去的变量 方法 . 输入 a. 预测变量: (常量), x2, x1。 Anova 模型 1 回归 残差 总计 平方和 123.199 4059.301 16952.500 df 2 7 9 均方 46.600 579.900 F 11.117 Sig. .007 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y 系数 非标准化系数 模型 1 (常量) x1 x2 a. 因变量: y B -459.624 4.676 8.971 标准 误差 153.058 1.816 2.468 .479 .676 标准系数 试用版 t -3.003 2.575 3.634 Sig. .020 .037 .008 a1回归方程为 y= -459.624+4.676x1+8.971x2

2复相关系数R=0.872,决定系数为0.761,由决定系数看回归方程接近高度相关

3方差分析表,F=11.117,P值=0.007,表明回归方程高度显着说明x1,x2,整体上对y有高度显着的线性影响

4回归系数的显着性检验x1工业总产值的P值=0.037 X2农业总产值的P值=0.008 在0.05的显着性水平上,自变量x1,x2对y均有显着影响

(7) 系数 非标准化系数 模型 1 (常量) x1 x2 a. 因变量: y B -459.624 4.676 8.971 标准 误差 153.058 1.816 2.468 .479 .676 标准系数 试用版 t -3.003 2.575 3.634 Sig. .020 .037 .008 B 的 95.0% 置信区间 下限 -821.7 .381 3.134 上限 -97.700 8.970 14.808 a ( 8 ) 标准化回归方程y=0.479x1+0.676x2

(9) 把x01=75,x02=42带入y= -459.624+4.676x1+8.971x2得

y=267.86

y置信水平95%的区间估计为(211.09492 , 324.57506) y置信水平95%的近似区间估计为(219.6978 , 316.0222) E(y)置信水平95%的区间估计为(245.001 ,290.657)

(10)由于X3的回归系数显着性检验未通过,所以居民非商品支出

对货运总量影响不大,但是回归方程整体对数据拟合较好。

3.12

输入/移去的变量 模型 1 输入的变量 x2, x1 ab移去的变量 方法 . 输入 a. 已输入所有请求的变量。 b. 因变量: y 模型汇总 标准 估计的误模型 1 R 1.000 aR 方 .999 调整 R 方 .999 差 11.517 a. 预测变量: (常量), x2, x1。 Anova 模型 1 回归 残差 总计 平方和 1.809E10 df 2 12 1.811E10 14 均方 9.046E9 1414947.047 F 6393.516 Sig. .000 ab a. 预测变量: (常量), x2, x1。 b. 因变量: y 系数 非标准化系数 模型 1 (常量) x1 x2 a. 因变量: y B 2914.6 .607 1.709 标准 误差 1337.466 .299 .074 .081 .921 标准系数 试用版 t 2.179 2.034 23.175 Sig. .050 .065 .000 共线性统计量 容差 VIF a .050 .050 20.196 20.196 VIF的值都大于10,所以变量之间存在多重共线性 共线性诊断 a方差比例 模型 1 维数 1 2 3 a. 因变量: y 特征值 2.871 .125 .004 条件索引 1.000 4.795 27.651 (常量) .01 .26 .73 x1 .00 .00 1.00 x2 .00 .03 .97 表中第三行x0(常数项),x1,x2的系数分别为0.73,1.00,0.97,说明x0(常数项),x1,x2之间存在多重共线性。 回归方程为y=2914.6+0.607x1+1.709x2, 第一产业的增加值x1的P值=0.065

第二产业的增加值x2的P值=0.000 在0.05的显着性水平上x1对y无显着影响

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务