一、多元线性回归模型
1. 概念
当Y值的影响因素不唯一时,采用多元线性回归模型
例如商品的销售额可能不电视广告投入,收音机广告投入,报纸广告投入有关系,可以有
是关于βi的函数。分别对βi求偏导并令偏导等于0,可以解出相应的βi的值
2. 例子
使用R中的Swiss数据集,包含了1888年瑞士国民经济发展数据集
我们要构造的模型是社会的繁荣程度和其它变量的关系:
Fertility就作为因变量,其它变量(.代表)作为自变量,可以看到结果
R值为0.7067说明这个模型变量是比较相关的,并且p值非常小说明这个模型不成立的概率很小,其次Residuals显示了平面上不同部分的残差,即四分位数和最小值、最大值。但是对于变量Examination的显著度水平很低,说明这个变量的关联性不大,我们可以将其剔除。(国家的发达程度和考试也许没多大关系…)
二、虚拟变量
例如
对于体重和身高、性别、人种都有关系,但是性别和人种是离散变量所以我们用虚拟变量表示,取0或1
如:isman iswoman isyellow isblack iswhite这几个变量
可以构建方程
W = a+bh+cisman+disyellow+eisblack(虚拟变量只取n-1个,因为不是男的就是女的)
所以,性别和人种只是影响截距,斜率是一样的,即虚拟变量是调整截距的作用。
如果想影响斜率,则用乘法模型:
W = a+bh+c*iswoman*h+d*isman*h(这里需要取n个)
若还想即影响斜率也影响截距,使用混合模型:
W = a+bh+cisman+disyellow+ e*iswoman*h+f*isman*h
原文:http://blog.csdn.net/jordandandan/article/details/44655455