一、数据来源
Employee data. sav
二、基本结果
(1)确定自变量、因变量:
一般而言,因变量y与各自变量xj(j=1,2,3,…,n)之间的多元线性回归模型:
其中:b0是回归常数;bk (k=1,2,3,…,n)是回归参数;e是随机误差。
根据employee data.sav的数据,其中Y是当前工资salary,X1是起始资金
salbegin,X2是工作经验prevexp,X3是工作时间jobtime,X4是工作种类jobcat,X5是受教育年限edcau。
(2)做出因变量与自变量的散点图:
从散点图可以看出因变量与各自变量之间存在线性关系。
(3)检验因变量Y是否服从正态分布的模型假定——因变量Y并没有很好地服从正态分布。
(4)线性回归Y的残差图
此标准化残差图表明,此线性回归的标准化残差呈楔形分布而非带状分布,不满足回归模型同方差的假定。
图 当前薪金多元线性回归分析的残差图
(5)通过以上检验可以看出,当前薪金并不是好的变量,对当前薪金进行Ln变换(取对数)生成新的随进变量logsale,将logsale作为因变量Y用逐步回归的方法进行回归分析:
1)p-p图:
发现取对数后,logY较好的服从了正态分布。
2)logY的标准化残差图:
上图表明因变量Y(logsale)的标准化残差近似呈带状分布,满足模型同方差的假定。
3)逐步回归的判定系数:
通过逐步回归,得到方程的判定系数如下表。R²越接近1,说明回归方程解释了因变量总变异量的绝大部分比例。本估计的回归方程有一个好的拟合,在模型5中达到0.810,且调整后的R²达到0.808,可以认为拟合度高。
表 1 Model Summary Model 1 2 3 4 5 R .841 .867 .0 .6 .900 edcbafR Square .707 .752 .791 .802 .810 Adjusted R Square .706 .751 .790 .800 .808 Std. Error of the Estimate .212 .19824 .18211 .17749 .17392 a. Predictors: (Constant), 起始薪金 b. Predictors: (Constant), 起始薪金, 雇佣类别 c. Predictors: (Constant), 起始薪金, 雇佣类别, 教育水平(年) d. Predictors: (Constant), 起始薪金, 雇佣类别, 教育水平(年), 经验(以月计) e. Predictors: (Constant), 起始薪金, 雇佣类别, 教育水平(年), 经验(以月计), 雇佣时间(以月计) f. Dependent Variable: logsale
4)回归方程总体显著性检验:F检验
表2中,对回归方程总体显著性进行了F检验,5个模型的显著性水平P值均为0,可以认为方程总体性显著,建立方程是有意义的。
表2 ANOVA fModel 1 Regression Residual Total 2 Regression Residual Total 3 Regression Residual Total 4 Regression Residual Total 5 Regression Residual Total Sum of Squares 52.772 21.903 74.675 56.165 18.510 74.675 59.088 15.586 74.675 59.900 14.775 74.675 60.519 14.156 74.675 df 1 472 473 2 471 473 3 470 473 4 469 473 5 468 473 Mean Square 52.772 .046 F 1.137E3 Sig. .000 a 28.083 .039 714.596 .000 b 19.696 .033 593.920 .000 c 14.975 .032 475.360 .000 d 12.104 .030 400.165 .000 e a. Predictors: (Constant), 起始薪金 b. Predictors: (Constant), 起始薪金, 雇佣类别 c. Predictors: (Constant), 起始薪金, 雇佣类别, 教育水平(年) d. Predictors: (Constant), 起始薪金, 雇佣类别, 教育水平(年), 经验(以月计) e. Predictors: (Constant), 起始薪金, 雇佣类别, 教育水平(年), 经验(以月计), 雇佣时间(以月计) f. Dependent Variable: logsale
5)建立回归方程:
所有自变量显著性水平均为0,可以认为每一自变量都可以很好的解释因变量。由上面分析可知,模型5拟合度最好,因而可以根据模型5的参数估计值建立回归方程:
表3 Coefficients Model Unstandardized Coefficients B 1 (Constant) 起始薪金 2 (Constant) 起始薪金 雇佣类别 3 (Constant) 起始薪金 雇佣类别 9.635 4.244E-5 9.610 3.006E-5 .167 9.274 2.269E-5 .156 Std. Error .024 .000 .022 .000 .018 .041 .000 .017 Standardized Coefficients Beta t Sig. a .841 408.429 .000 33.722 .000 .595 .325 439.304 .000 17.030 9.293 .000 .000 .449 .303 226.396 .000 12.591 9.425 .000 .000 教育水平(年) 4 (Constant) 起始薪金 雇佣类别 教育水平(年) 经验(以月计) 5 (Constant) 起始薪金 雇佣类别 教育水平(年) 经验(以月计) 雇佣时间(以月.035 9.380 2.419E-5 .162 .028 .000 9.101 2.475E-5 .160 .027 .000 .004 .004 .045 .000 .016 .004 .000 .076 .000 .016 .004 .000 .001 .256 9.388 .000 .479 .315 .203 -.112 208.261 .000 13.584 10.022 7.091 -5.077 .000 .000 .000 .000 .490 .312 .192 -.116 .091 119.903 .000 14.146 10.121 6.841 -5.326 4.524 .000 .000 .000 .000 .000 计) a. Dependent Variable: logsale
三、结论
根据上述多重线性回归分析,认为当前薪金受起始薪金、雇佣类别、雇佣时间、教育水平因素的影响,它们建立起的线性回归方程:
拟合程度较好,达到80.8%,各自变量与因变量之间的线性关系在统计上呈现显著性。由于因变量Y是当前薪金的Ln变换,故在实际应用与预测中,应将因变量Y的取值进行自然对数的变换得到当前薪金的预测值。 四、建议与对策
通过以上分析,可以认为:原始薪金对当前薪金的影响是很大的,而工作种类对当前薪金的影响在方程中无法体现(X4估计系数为0)。
在回归中,可以发现当因变量不满足回归方程模型假定时,可以对其变形已达到符合模型假定的因变量,本题中将Y变为logY后,回归可以建立。在得到结果后,可以再次转换因变量得到最终希望得到的预测值。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- niushuan.com 版权所有 赣ICP备2024042780号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务