本节内容主要整理自教材《Introduction to Econometrics 4th》James H. Stock & Mark W. Watson 中文译本 王立勇 & 徐晓莉 机械工业出版社 2023,部分内容整理自课后习题答案

1. 回归方程

首先从最基础的一元线性回归开始,我们有总体回归线(population regression line)

$$ Y_i = \beta_0 + \beta_1X_i + u_i $$

以及样本回归线(sample regression line)

$$ Y_i = \hat{\beta_0} + \hat{\beta_1}X_i + \hat{u_i} $$

心得:总体参数(parameters)与样本估计量(estimators)

总体参数是指关于总体的信息值,也即真值,比如$\beta_0$和$\beta_1$或者$\mu_Y$和$\sigma^2_Y$,是总体客观存在的常数。在理论上我们常将总体$Y$看作无限大(Hansen, 2022),存在对应的分布。而在现实中我们往往不能获取总体的所有信息,因此只能通过抽取有限的样本$Y_1, Y_2,..., Y_n$形成相应的估计量,来达到估计总体参数的效果,也即这里的$\hat{\beta_0}$和$\hat{\beta_1}$或者$\bar{Y}$和$s_Y^2$。它们随着抽取不同的样本而有不同的值,是关于样本的随机变量,也存在对应的抽样分布。

2. OLS估计量

OLS全称为ordinary least squares,也即最小二乘法,是一种通过使残差平方和达到最小从而实现估计的方法,在计量经济学中有着相当广泛而重要的作用。

下面进行$\hat{\beta_0}$和$\hat{\beta_1}$估计量的推导。我们知道,OLS方法是利用最小残差平方和推导而来,我们先从样本回归方程开始,通过移项可以表示残差平方和,即

$$ \sum(Y_i - \hat{\beta_0} - \hat{\beta_1} X_i)^2 $$

为了使上式最小,可以利用微积分方法分别对$\hat{\beta_0}$和$\hat{\beta_1}$求导(此时看作是二者的函数),并让其分别等于0,达到极值一阶条件。通过整理可得:

$$ \begin{align} &\bar{Y}-\hat{\beta_0} - \hat\beta_1 \bar{X} = 0 \\ &\frac{1}{n} \sum X_i Y_i -\hat{\beta_0} \bar{X} - \hat{\beta_1} \frac{1}{n} \sum X_i^2 = 0 \end{align} $$

进一步求解这两个方程,此时即可得到$\hat{\beta_0}$和$\hat{\beta_1}$的OLS表达式:

$$ \begin{align} \hat{\beta_0} &= \bar{Y} - \hat{\beta_1}\bar{X} \\ \hat{\beta_1} &= \frac{\frac{1}{n}\sum X_i Y_i - \bar{X}\bar{Y}}{\frac{1}{n}\sum X_i^2 - \bar{X}^2} \\ &= \frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2} \\ &= \frac{s_{xy}}{s_{x}^2} \\ &= \beta_1 + \frac{\frac{1}{n}\sum (X_i - \bar{X})u_i}{\frac{1}{n}\sum (X_i - \bar{X})^2} \end{align} $$

注意$\frac{s_{xy}}{s_{x}^2}$是由$\frac{\sum(X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}$上下同除以$(n-1)$得来,形成样本协方差与样本方差。$\beta_1 + \frac{\frac{1}{n}\sum (X_i - \bar{X})u_i}{\frac{1}{n}\sum (X_i - \bar{X})^2}$是通过将样本代入总体方程式(样本从总体中来,自然可以由总体表示),从而让总体参数与误差项来表示估计量。

3. OLS因果推断假设

基本假设:

假设1:$\text{E}(u_i|X_i)$ = 0

利用迭代期望定理可以推出$u_i$与$X_i$均值独立,进而推出二者不相关,协方差为0

假设2:从联合总体中抽取的$(X_i, Y_i)$满足独立同分布(i.i.d.)

假设3:$0<\text{E}(X_i^4)< \infty$,$0<\text{E}(Y_i^4)< \infty$

扩展假设:

假设4:$\text{Var}(u_i|X_i) = \sigma _u^2$

基于假设1到4,OLS估计量为BLUE

假设5:$u_i|X_i \sim \text{N}(0, \sigma _u^2)$

基于假设1到5,可以得到OLS估计量的精准分布

4. OLS估计量的性质

4.1 OLS估计量的无偏性

4.1.1 证明

基于假设1可以推出$\hat{\beta_0}$和$\hat{\beta_1}$的无偏性,具体过程如下。

对于$\hat{\beta_1}$,根据$\beta_1 + \frac{\frac{1}{n}\sum (X_i - \bar{X})u_i}{\frac{1}{n}\sum (X_i - \bar{X})^2}$,我们首先同时对两边求关于$X_i$的条件期望。

$$ \begin{aligned} \text{E}(\hat{\beta_1}|X_i) &= \beta_1 + \frac{\frac{1}{n}\sum(X_i - \bar{X})\text{E}(u_i|X_i)}{\frac{1}{n}\sum(X_i - \bar{X})^2} \\ &= \beta_1 \end{aligned} $$

根据假设1,$\text{E}(u_i|X_i) = 0$,所以第一个等式第二项可以直接消掉,进而得到第二个等式。此时再运用迭代期望定理即可得到$\hat{\beta_1}$的无偏性。

对于$\hat{\beta_0}$,有

$$ \bar{Y}-\hat{\beta_0} - \hat\beta_1 \bar{X} = 0 \Longrightarrow \hat{\beta_0} = \bar{Y}- \hat\beta_1 \bar{X} $$

两边同时求期望,有

$$ \begin{aligned} \text{E}(\hat{\beta_0}) &= \text{E}(\beta_0 + \beta_1\bar{X} + \bar{u} - \hat{\beta_1}\bar{X}) \\ &= \beta_0 + \text{E}((\beta_1-\hat{\beta_1})\bar{X}) + \text{E}(\bar{u}) \\ &= \beta_0 \end{aligned} $$

注意,由假设1利用迭代期望定理可以推出$\text{E}(u_i)=0$,进而有$\text{E}(\bar{u})=0$。

4.2 OLS估计量的一致性

利用假设1到3,可以在大样本下推断OLS估计量服从正态分布,从而推出其一致性。这一点对于构造$t$检验统计量从而进行假设检验具有重要意义。

在证明之前,首先引入一些概念与定理。

4.2.1 相关概念与定理

  1. 一致性与依概率收敛

    令$S_1, S_2,..., S_n$为随机变量序列,我们称$S_n$依概率收敛(converge in probability)于$\alpha$,当且仅当对于任意正数$\delta$,当$n \longrightarrow \infty$时,$S_n$落在$\alpha \pm \delta$区间外的概率趋于0,也即:
    $$S_n \stackrel{p}{\longrightarrow} \alpha \iff \Pr(|S_n - \alpha| \geq \delta) \longrightarrow 0$$
    此时,称$S_n$是$\alpha$的一致估计量(consistent estimator)。

  2. 大数定律(Law of large numbers)

    当$Y_1, Y_2,..., Y_n$满足一定条件,样本均值$\bar{Y}$依概率收敛到总体均值$\mu_Y$。本书采用的条件是:$Y_1, Y_2,..., Y_n$独立同分布,且$0<\sigma_Y^2<\infty$。
    $$ \bar{Y} \stackrel{p}{\longrightarrow} \mu_Y $$

  3. 依分布收敛

    令$F_1, F_2,..., F_n$分别表示随机变量序列$S_1,S_2,...,S_n$的累积分布函数。我们称$S_n$依分布收敛(converge in distribution)于$S$,当且仅当$n \longrightarrow \infty$时,$F_n$趋同于$F$,也即:
    $$S_n \stackrel{d}{\longrightarrow} S \iff \lim_{n \longrightarrow \infty} F_n = F(t)$$其中,对于极限分布$F$的所有连续点$t$,该极限都成立。此时,我们称分布$F$是$S_n$的渐进分布(asymptotic distribution)。

  4. 中心极限定理(Central limit theorem, CLT)

    若$Y_1, Y_2,..., Y_n$独立同分布,且$0<\sigma_Y^2<\infty$,有:
    $$\frac{\bar{Y}-\mu_Y}{\sigma_\bar{Y}} \stackrel{d}{\longrightarrow} \text{N}(0, 1)$$
    因为$\sigma_\bar{Y} = \frac{\sigma_Y}{\sqrt{n}}$,所以上式等同于
    $$\begin{align}
    \frac{\sqrt{n} (\bar{Y}-\mu_Y)}{\sigma_Y} &\stackrel{d}{\longrightarrow} \text{N}(0, 1) \\
    \text{or} \quad \sqrt{n} (\bar{Y}-\mu_Y) &\stackrel{d}{\longrightarrow} \text{N}(0, \sigma_Y^2)
    \end{align} $$

  5. 斯拉斯基定理(Slutsky theorem)

    该定理将一致性与依分布收敛结合在一起。假设$a_n \stackrel{p}{\longrightarrow} a$,其中$a$为常数,$S_n \stackrel{d}{\longrightarrow} S$,则有:
    $$
    \begin{align}
    a_n + S_n &\stackrel{d}{\longrightarrow} a + S \\
    a_nS_n &\stackrel{d}{\longrightarrow} aS \\
    \frac{S_n}{a_n} &\stackrel{d}{\longrightarrow} \frac{S}{a}, a \neq 0
    \end{align}
    $$

  6. 柯西-施瓦茨不等式(Cauchy-Schwarz inequality)
    $$|\text{E}(XY)| \leq \sqrt{\text{E}(X^2)\text{E}(Y^2)}$$

4.2.2 证明

接下来证明$\hat{\beta_1}$的一致性。我们首先证明在大样本条件下,$\sqrt{n}(\hat{\beta_1}-{\beta_1}) \stackrel{d}{\longrightarrow} N(0, \frac{\sigma_v^2}{(\sigma_X^2)^2})$,然后再证明$ \hat{\beta_1}$的一致性。

Step 1:证明$\sqrt{n}(\hat{\beta_1}-{\beta_1}) \stackrel{d}{\longrightarrow} N(0, \frac{\sigma_v^2}{(\sigma_X^2)^2})$

首先,我们根据$\beta_1 + \frac{\frac{1}{n}\sum (X_i - \bar{X})u_i}{\frac{1}{n}\sum (X_i - \bar{X})^2}$推导出$\sqrt{n}(\hat{\beta_1}-{\beta_1})$的分解形式,并将$\mu_X$代入式中,具体如下:

$$ \begin{aligned} \sqrt{n}\left(\hat{\beta}_1-\beta_1\right) & =\sqrt{n} \frac{\frac{1}{n} \sum\left(X_i-\bar{X}\right) u_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2} \\ & =\sqrt{n} \frac{\frac{1}{n} \sum\left[\left(X_i-\mu_X\right)-\left(\bar{X}-\mu_X\right)\right] u_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2} \\ & =\frac{\sqrt{\frac{1}{n}} \sum\left(X_i-\mu_X\right) u_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2}-\frac{\left(\bar{X}-\mu_X\right) \sqrt{\frac{1}{n}} \sum u_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2} \\ & =\frac{\sqrt{\frac{1}{n}} \sum v_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2}-\frac{\left(\bar{X}-\mu_X\right) \sqrt{\frac{1}{n}} \sum u_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2} \end{aligned} $$

其中,有$v_i=\left(X_i-\mu_X\right) u_i$。

其次,我们需要证明,该分解的第二项收敛于0,此步需要用到中心极限定理、大数定理和斯拉斯基定理,具体如下:

根据假设2和3,由于$u_i$满足i.i.d,$0<\text{Var}(u_i)<\infty$,我们可以运用中心极限定理。又根据假设一,有$\mu_u = 0$,因此我们有

$$ \sqrt{n} (\bar{u}-\mu_u) = \sqrt{n} \sum u_i \stackrel{d}{\longrightarrow} \text{N}(0, \sigma_u^2) $$

基于大数定理,并根据假设2到3,我们有 $$ \bar{X}-\mu_X \stackrel{p}{\longrightarrow} 0 $$

同时,我们可以证明样本方差$s_X^2$和$\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2$ 都具有一致性(前者是除以$n-1$),即有$\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2 \stackrel{p}{\longrightarrow} \text{Var}(X_i)$,具体过程如下:

$$ \begin{aligned} \frac{1}{n} \sum(Y_i - \bar{Y})^2 &= \frac{1}{n} (\sum Y_i^2 - 2\bar{Y}\sum{Y_i}) + \bar{Y}^2 \\ &= \frac{1}{n} \sum{Y_i^2} - \bar{Y}^2 \\&\stackrel{p}{\longrightarrow} (\sigma_Y^2 + \mu_Y^2) - \mu_Y^2 \\ &= \sigma_Y^2 \end{aligned} $$

基于假设2和3,$Y_i^2$满足i.i.d并且$0<\text{E}(Y^4_i)<\infty$,即$\sigma_{Y^2}^2$有限,此时利用大数定理和期望性质,可得

$$ \frac{1}{n} \sum{Y_i^2} \stackrel{p}{\longrightarrow} \text{E}(Y^2) = \sigma_Y^2 + \mu_Y^2 $$

此时根据斯拉斯基定理,可得$\sqrt{n}(\hat{\beta_1}-{\beta_1})$分解的第二项依分布收敛于$0\times Z_1$。

接下来我们继续证明分解的第一项同样依分布收敛。我们已经知道分母依概率收敛于$\text{Var}(X_i)$,现在我们重点关注分子。同样,我们可以运用中心极限定理证明该项依分布收敛。我们知道$v_i$满足独立同分布,问题在于需要证明$0<\text{Var}(v_i)<\infty$。这里运用了柯西-施瓦茨定理,同时这也证明了为什么从假设3可以推出总体方差是有限的。具体如下:

$$ \begin{aligned} \operatorname{var}\left(v_i\right) & =\operatorname{var}\left[\left(X_i-\mu_X\right) \mu_i\right] \\ & \leq E\left[\left(X_i-\mu_X\right)^2 u_i^2\right] \\ & \leq \sqrt{E\left[\left(X_i-\mu_X\right)^4\right]E\left[\left(u_i\right)^4\right]}<\infty . \end{aligned} $$

此时,再运用中心极限定理我们有

$$ \frac{\bar{v}-\mu_v}{\sigma_\bar{v}} = \frac{\sqrt{\frac{1}{n}}\sum v_i}{\sigma_v} \stackrel{d}{\longrightarrow} \text{N}(0, 1) $$

此时,再次运用斯拉斯基定理,我们便完成了第一步的证明,

$$ \begin{aligned} \sqrt{n}\left(\hat{\beta}_1-\beta_1\right) &= \frac{\sqrt{\frac{1}{n}} \sum v_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2}-\frac{\left(\bar{X}-\mu_X\right) \sqrt{\frac{1}{n}} \sum u_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2} \\ &= \frac{\frac{\sqrt{\frac{1}{n}}\sum v_i}{\sigma_v}}{\frac{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2}{\sigma_X^2}} \times \frac{\sigma_v}{\sigma_X^2} -\frac{\left(\bar{X}-\mu_X\right) \sqrt{\frac{1}{n}} \sum u_i}{\frac{1}{n} \sum\left(X_i-\bar{X}\right)^2} \\ & \stackrel{d}{\longrightarrow} \text{N}(0, \frac{\sigma_v^2}{(\sigma_X^2)^2}) \end{aligned} $$

Step 2: 证明$\hat{\beta_1}$的一致性

下面继续运用斯拉斯基定理进行证明,我们有

$$ \hat{\beta}_1-\beta_1 =\sqrt{\frac{1}{n}} \times \sqrt{n} \left(\hat{\beta}_1-\beta_1\right) \stackrel{d}{\longrightarrow} 0 \times Z_2 $$

进而,对于任意正数$\delta$,我们有

$$ \text{Pr}(|\hat{\beta_1} - \beta_1| \geq \delta) \longrightarrow 0 \iff \hat{\beta_1} \longrightarrow \beta_1 $$

最终,我们关于$\hat{\beta_1}$的一致性证明完毕。

4.3 OLS估计量的有效性

高斯-马尔科夫定理(Gauss-Markov theorem)

在满足假设1到4的情况下,OLS估计量是最佳线性无偏估计量(best linear conditionally unbiased estimator,BLUE),此时OLS估计量不仅是无偏的,而且在所有线性无偏估计量中具有最小方差。

5. OLS的其他代数性质

$$ \begin{align} \frac{1}{n}\sum\hat{u_i} &= 0 \\\frac{1}{n}\sum\hat{Y_i} &= \bar{Y} \\\sum\hat{u_i}X_i &= 0, \ s_{\hat{u}X} = 0 \\\text{TSS} &= \text{SSR} + \text{ESS} \\\text{TSS} &= \sum(Y_i - \bar{Y})^2 \\\text{SSR} &= \sum(Y_i - \hat{Y_i})^2 \\\text{ESS} &= \sum(\hat{Y_i} - \bar{Y})^2 \end{align}$$

参考文献

Hansen, B. (2022). Probability and statistics for economists. Princeton University Press.

一蓑烟雨任平生
最后更新于 2025-03-31