知方号

知方号

计量经济学多元回归分析

计量经济学多元回归分析

多元回归分析--潘登同学的计量经济学笔记

多元回归分析--潘登同学的计量经济学笔记多元线性回归模型普通最小二乘法得到OLS估计值对OLS回归方程的解释多元线性回归中"保持其他因素不变”的含义OLS的拟合值和残差的性质(由单变量推广)对多元回归“排除其他变量影响”的解释拟合优度简单回归和多元回归估计值的比较OLS估计值的期望值在回归模型中包含了无关变量遗漏变量的偏误:简单情形遗漏变量的偏误:一般情形OLS估计量的方差OLS方差的成分:多重共线性多重共线性的后果及修正措施衡量多重共线性的统计量遗漏变量模型中的方差OLS估计量的标准误(估计$sigma^2$)OLS的有效性

多元线性回归模型

$$y = eta_0 + eta_1x_1 + eta_2x_2 + cdots + eta_kx_k + u$$

关键假定$$E(u|x_1,x_2,ldots,x_k) = 0$$这个假定意味着方程中的不可观测的误差项中的所有因素都与解释变量无关。还意味着,我们已经正确地解释了被解释变量和解释变量之间的函数关系普通最小二乘法得到OLS估计值

$$hat{y} = hat{eta_0} + hat{eta_1}x_1 + hat{eta_2}x_2 + cdots + hat{eta_k}x_k$$

上式被称为OLS回归线或样本回归函数;

目标:残差平方和最小$$argmin sum_{i=1}^n(y_i-(hat{eta_0} + hat{eta_1}x_{i1} + hat{eta_2}x_{i2} + cdots + hat{eta_k}x_{ik}))^2$$

对每个$hat{eta}$求导$$egin{cases}2sum_{i=1}^n(y_i-(hat{eta_0} + hat{eta_1}x_{i1} + hat{eta_2}x_{i2} + cdots + hat{eta_k}x_{ik})) = 02sum_{i=1}^nx_{i1}(y_i-(hat{eta_0} + hat{eta_1}x_{i1} + hat{eta_2}x_{i2} + cdots + hat{eta_k}x_{ik})) = 0\cdots2sum_{i=1}^nx_{ik}(y_i-(hat{eta_0} + hat{eta_1}x_{i1} + hat{eta_2}x_{i2} + cdots + hat{eta_k}x_{ik})) = 0\end{cases}$$

上式通常被称为OLS的一阶条件;

对OLS回归方程的解释

(以两个解释变量为例,考虑如下OLS回归线)$$hat{y} = hat{eta_0}+ hat{eta_1}x_1 + hat{eta_1}x_2$$

估计值$hat{eta_1}和hat{eta_2}$具有偏效应:从方程中我们可以得到$$ rianglehat{y} = hat{eta_1} riangle x_1 + hat{eta_2} riangle x_2$$因此我们能在给定$x_1与x_2$的变化的情况下,预测$y$的变化,特别地,当$x_2$固定,即$ riangle x_2=0$时,可以得到$$ rianglehat{y} = hat{eta_1} riangle x_1 $$

这样的解释就是多元线性回归的有用之处了,所以我们得到$x_1$的系数可以解释为:在其他条件不变的情况下$x_1对y$的影响,这样就能实现控制变量的目的。

多元线性回归中"保持其他因素不变”的含义

多元回归分析的作用:尽管不能在其他条件不变的情况下收集数据,但它提供的系数仍可做其他条件不变的解释。(其内在逻辑是:社会科学的数据往往不是在实验条件下获取的,往往不能保证一个量不变去分析另外一个变量,而多元回归分析可以实现这样的有效模拟)

OLS的拟合值和残差的性质(由单变量推广)1.残差的样本均值为零$$ar{y} = ar{hat{y}}$$2.每个解释变量与OLS残差的样本协方差为零,故OLS拟合值和OLS残差之间的样本协方差也为零$$sum_{i=1}^n x_{ij}hat{u_i} = 0 (j=1,2,ldots,k)\sum_{i=1}^n hat{y_{i}}hat{u_i} = 0 $$3.点$(ar{x_1},ar{x_2},ldots,ar{x_k},ar{y})$总是位于OLS回归线上$$ar{y} = hat{eta_0} + hat{eta_1}ar{x_1} + hat{eta_2}ar{x_2} + cdots + hat{eta_k}ar{x_k}$$对多元回归“排除其他变量影响”的解释

(以两个解释变量为例,考虑如下OLS回归线)$$hat{y} = hat{eta_0}+ hat{eta_1}x_1 + hat{eta_2}x_2$$

$eta_1$的一种表达形式$$hat{eta_1} = frac{sum_{i=1}^nhat{r_{i1}}y_i}{sum_{i=1}^nhat{r_{i1}}^2}$$

其中,$hat{r_{i1}}$是利用现有样本将$x_1$对$x_2$进行简单回归的得到的OLS残差,然后再利用$y对hat{r_{i1}}$进行简单回归就能得到$hat{eta_1}$

推导

$x_1$对$x_2$进行简单回归$$hat{x_1} = hat{alpha_0} + hat{alpha_1}x_2\hat{r_{i1}}=x_{i1}-hat{x_{i1}}$$用$hat{x_{i1}} + hat{r_{i1}}$代替$x_{i1}$带回方程$$hat{y} = hat{eta_0}+ hat{eta_1}(hat{x_{i1}} + hat{r_{i1}}) + hat{eta_2}x_2$$对上式进行一整套OLS的一阶条件,现只考虑对$hat{eta_1}$求偏导的步骤$$sum_{i=1}^n(hat{x_{i1}} + hat{r_{i1}})(hat{y}-(hat{eta_0}+hat{eta_1}x_{i1} + hat{eta_2}x_{i2}))=0$$因为$hat{x_{i1}}$是解释变量$x_{i2}$的线性函数,根据性质2,有$sum_{i=1}^nhat{x_{i1}}hat{u_i} = 0$$$sum_{i=1}^nhat{r_{i1}}(hat{y}-(hat{eta_0}+ hat{eta_1}x_{i1} + hat{eta_2}x_{i2}))=0$$又因为$hat{r_{i1}}$是$x_1对x_2$的回归残差,有$sum_{i=1}^n{x_{i2}}hat{u_i} = 0$,$sum_{i=1}^nhat{u_i} = 0$$$sum_{i=1}^nhat{r_{i1}}(hat{y}- hat{eta_1}x_{i1}) = sum_{i=1}^nhat{r_{i1}}(hat{y}- hat{eta_1}(hat{x_{i1}} + hat{r_{i1}})) =0$$又因为$hat{r_{i1}}$是$x_1对x_2$的回归残差,有$sum_{i=1}^n{x_{i1}}hat{r_{i1}} = 0$则$hat{eta_1}$是下式的解:$$sum_{i=1}^nhat{r_{i1}}(hat{y}- hat{eta_1}hat{r_{i1}}) =0\Rightarrow hat{eta_1} = frac{sum_{i=1}^nhat{r_{i1}}y_i}{sum_{i=1}^nhat{r_{i1}}^2}$$

$eta_1$的另一种偏效应解释

残差$hat{r_{i1}}$是$x_{i1}$中与$x_{i2}$不相关的部分(或者说$hat{r_{i1}}$排除了$x_{i2}$影响之后的部分),于是$eta_1$度量了在排除$x_{i2}$影响之后$y和x_1$之间的样本关系。更一般地,在有k个解释变量的一般模型中,$hat{r}$来自$x_1$对$x_2,ldots,x_k$的回归,于是$hat{eta_1}$度量的是,在排除$x_1$对$x_2,ldots,x_k$等变量的影响后,$x_1对y$的影响。排除的结果通常被称为弗里施-沃定理

拟合优度

$$SST equiv sum_{i=1}^n (y_i - ar{y})^2SSE equiv sum_{i=1}^n (hat{y_i} - ar{y})^2SSR equiv sum_{i=1}^n hat{u_i}^2 $$同理,有$$SST = SSE + SSR$$拟合优度$R^2$$$R^2 equiv frac{SSE}{SST} = 1 - frac{SSR}{SST}$$可以证明:$R^2$等于$y_i$实际值与其拟合值$hat{y_i}$的相关系数的平方$$R^2 equiv frac{(sum_{i=1}^n(y_i-ar{y})(hat{y_i}-ar{hat{y}}))^2}{sum_{i=1}^n(y_i-ar{y})^2sum_{i=1}^n(hat{y_i}-ar{hat{y}})^2}$$

简单回归和多元回归估计值的比较

(以两个解释变量为例)

如果$y$只对$x_1$进行简单回归$$ ilde{y} = ilde{eta_0} + ilde{eta_1}x_1$$而对$x_1和x_2$进行多元回归$$hat{y} = hat{eta_0}+ hat{eta_1}x_1 + hat{eta_2}x_2$$

$ ilde{eta_1}$通常不等于$hat{eta_1}$,而存在如下关系:$$ ilde{eta_1} = hat{eta_1} + hat{eta_2} ilde{delta_1}$$其中, $ ilde{delta_1}$是$x_2对x_1$进行简单回归的斜率系数

但在下列两种情形下,$ ilde{eta_1}$会与$hat{eta_1}$相等:

1.样本中$x_2对y$的偏效应为0,即$hat{eta_2}=0$2.样本中$x_1和x_2$不相关,即$ ilde{delta_1}=0$OLS估计值的期望值

有4个假定,因为简单线性模型也可以写作MLR,后面就用MLR来表示

假定MLR.1 (线性于参数)$$总体模型y = eta_0 + eta_1x + u$$MLR.2 (随机抽样)横截面数据的样本都是随机抽样的结果

MLR.3 (不存在完全共线性)在样本(因而在总体中),没有一个自变量是常数,自变量之间也不存在严格的线性关系,举几个例子+ 这个可以:$$y = eta_0 + eta_1x + eta_2x^2 + u$$+ 这个不行:$$y = eta_0 + eta_1log(x) + eta_2log(x^2) + u$$+ 这个也不行:$$y = eta_0 + eta_1 expand_A + eta_2 expand_B + eta_3 expense_{Total} + u$$

MLR.4 (零条件均值)$$ E(u|x_1,x_2,ldots,x_k) = 0$$

当假定4成立时,我们常说具有外生解释变量;但若$x_j与u$相关,那么$x_j$就称为内生解释变量;定理 OLS估计量的无偏性

在MLR.1至MLR.4下,下式对总体参数$eta_j$的任意值都成立$$E(hat{eta_j}) = eta_j,j=0,1,ldots,k$$

注意: 不能说一个估计值是无偏的,因为一个估计值就是从一组特定样本得到的一个固定值;我们只能说保持MLR.1至MLR.4假定的估计值的程序是无偏的,所以认为我们的估计也是无偏的;

在回归模型中包含了无关变量

前提:满足MLR.1至MLR.4假设

模型:$$y = eta_0 + eta_1x_1 + eta_2x_2 + eta_3x_3 + u$$其中,$x_3$是无关变量;

结论:不会影响OLS估计量的无偏性$$E({hat{eta_0}}) = eta_0E({hat{eta_1}}) = eta_1E({hat{eta_2}}) = eta_2E({hat{eta_3}}) = 0$$

遗漏变量的偏误:简单情形

(遗漏了一个实际上应包括在真实(总体)模型中的变量)

误设分析(遗漏了一个重要变量)

假设总体模型:$$y = eta_0 + eta_1x_1 + eta_2x_x + u$$

而现在模型:$$ ilde{y} = ilde{eta_0} + ilde{eta_1}x_1 + u$$

由前面(简单回归与多元回归的比较)$$ ilde{eta_1} = hat{eta_1} + hat{eta_2} ilde{delta_1}$$推导 $bias( ilde{eta_1})$$$E( ilde{eta_1}) = E(hat{eta_1} + hat{eta_2} ilde{delta_1})=E(hat{eta_2})+E(hat{eta_2}) ilde{delta_1} = eta_1 + eta_2 ilde{delta_1}\Rightarrow bias( ilde{eta_1}) = E( ilde{eta_1}) - eta_1 = eta_2 ilde{delta_1}$$称为遗漏变量偏误,此时的偏误源自遗漏的解释变量$x_2$

由于$ ilde{delta_1}$是$x_1和x_2$之间的样本协方差与$x_1$的样本方差之比

若$x_1与x_2$不相关,那$ ilde{delta_1}=0$

(重要理解)换句话说,若$E(x_2|x_1) = E(x_2)$,那么$ ilde{eta_1}$的无偏性无须以$x_{2}$为条件;于是在估计$beta_1$时,只需调整截距,将$x_2$放到误差项中就不违背误差项条件均值为零的假定’

补充:遗漏变量$x_2$,$ ilde{eta_1}$的偏误表 $Corr(x_1,x_2)>0$ $Corr(x_1,x_2)0$ 偏误为正 偏误为负 $eta_2eta_1$时,有向上的偏误当$E( ilde{eta_1})

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。