ガウス・マルコフの定理

『統計学入門』第13章の学習メモ。ガウス・マルコフの定理について。

定義
線形推定量とは
分散が最小になることの証明
補足：分散を小さくする条件
参考文献

定義

最小二乗推定量(least squares estimator)は、線形不偏推定量のうち、最小の分散をもつ。
この推定量を最良線形不偏推定量(BLUE; best linear unbiased estimator)と呼ぶ。

線形推定量とは

回帰モデル(1)を仮定する。誤差項 $ε$ は系列無相関であり、平均0、分散 $σ^2$ の正規分布に従う。

${ \begin{eqnarray} Y_i &=& \beta_1 + \beta_2 X_i + ε_i \tag{1} \\ \\ ε_i &\overset{iid}{\sim}& N(0, \sigma^2) \end{eqnarray} }$

$\hat\beta_1$ 、 $\hat\beta_2$ は(1)の最小二乗推定量である。
$\hat\beta_1$ 、 $\hat\beta_2$ を(2)の形で表せるとき、これらを線形推定量と呼ぶ。線形推定量は確率変数の線形結合で表せる推定量である。

${ \begin{eqnarray} \hat\beta_1 = \sum_{i=1}^n c_i Y_i, \hat\beta_2 = \sum_{i=1}^n d_i Y_i \tag{2} \end{eqnarray} }$

$\hat\beta_2$ は $X_i,Y_i$ で表すことができる。

${ \begin{eqnarray} \hat\beta_2 &=& \frac{\sum_{i=1}^n (X_i - \overline X )(Y_i - \overline Y)}{\sum_{i=1}^n (X_i - \overline X )^2} \tag{3}\\ &=& \frac{\sum_{i=1}^n (X_i - \overline X )Y_i}{\sum_{i=1}^n (X_i - \overline X )^2} \\ d_i &=& \frac{(X_i - \overline X )}{\sum_{i=1}^n (X_i - \overline X )^2} \tag{4} \end{eqnarray} }$

同様に、 $\hat\beta_1$ も線形不偏推定量となることが分かる。

分散が最小になることの証明

$\hat\beta_2$ の分散が最小になることを証明する。
まず、 $\hat\beta_2^{\prime}$ を(1)の回帰モデルの任意の線形不偏推定量とする。

${ \begin{eqnarray} \hat\beta_2^{\prime} = \sum_{i=1}^n e_i Y_i\tag{5} \\ \end{eqnarray} }$

$\hat\beta_2^{\prime}$ は不偏推定量であるため、その期待値が $\beta_2$ と一致する。

${ \begin{eqnarray} E[\hat\beta_2^{\prime}] &=& \sum_{i=1}^n e_i E[Y_i] \\ &=& \sum_{i=1}^n e_i E[\beta_1 + \beta_2 X_i + ε_i] \\ &=& \beta_2 \sum_{i=1}^n e_i + \beta_2 \sum_{i=1}^n e_i X_i \\ &=& \beta_2 \tag{6} \end{eqnarray} }$

(6)が成立するためには、

${ \begin{eqnarray} \sum_{i=1}^n e_i=1, \sum_{i=1}^n e_i X_i = 1\tag{7} \end{eqnarray} }$

であることが必要である。

同じく $\hat\beta_2$ も線形不偏推定量であるため、

${ \begin{eqnarray} \sum_{i=1}^n d_i=1, \sum_{i=1}^n d_i X_i = 1\tag{8} \end{eqnarray} }$

であることが必要である。ここで(5),(7)より、

${ \begin{eqnarray} \hat\beta_2^{\prime} &=& \sum_{i=1}^n e_i (\beta_1 + \beta_2 X_i + ε_i) \\ &=& \beta_2 + \sum_{i=1}^n e_i ε_i \tag{9} \end{eqnarray} }$

となる。
次に $\hat\beta_2^{\prime}$ の分散を表す。

${ \begin{eqnarray} V[\hat\beta_2^{\prime} ]&=& \sum_{i=1}^n {e_i}^2 V[Y_i] \\ &=& σ^2 \sum_{i=1}^n {e_i}^2 \\ &=& σ^2 \sum_{i=1}^n (e_i - d_i + d_i)^2 \\ &=& σ^2 \sum_{i=1}^n \{ (e_i - d_i)^2 + 2(e_i - d_i)d_i + d_i^2 \} \\　 &=& σ^2 \sum_{i=1}^n (e_i - d_i)^2 + \sum_{i=1}^n d_i^2 \\ &\geqq& \sum_{i=1}^n d_i^2 \\ &=& V[\hat\beta_2] \tag{10} \end{eqnarray} }$

任意の線形不偏推定量 $\hat\beta_2^{\prime}$ の分散の下限値が $\hat\beta_2$ の分散であること、つまり $\hat\beta_2$ の分散が最小となることが示された。
途中の式変形では(7),(9)を用いた。

補足：分散を小さくする条件

$\hat\beta_1$ 、 $\hat\beta_2$ の分散はそれぞれ以下の通りである。

${ \begin{eqnarray} V[\hat{\beta_1}] &=& \frac{\sigma^2 \sum_{i=1}^n X_i^2 }{n \sum_{i=1}^n (X_i - \overline X )^2}\\ &=& \frac{\sigma^2 (\sum_{i=1}^n (X_i - \overline{X})^2 + n\overline{X}^2 )} {n \sum_{i=1}^n (X_i - \overline X )^2} \\ &=& \frac{\sigma^2 \sum_{i=1}^n (X_i - \overline{X})^2} {n \sum_{i=1}^n (X_i - \overline X )^2} + \frac{\overline{X}^2}{\sum_{i=1}^n (X_i - \overline{X})^2}\\ &=& \frac{σ^2}{n} +\frac{\overline{X}^2}{ \sum_{i=1}^n (X_i - \overline X )^2} \tag{11} \\ V[\hat{\beta_2}] &=& \frac{\sigma^2}{\sum_{i=1}^n (X_i - \overline X )^2} \tag{12}\\ \end{eqnarray} }$

$\hat\beta_1$ 、 $\hat\beta_2$ の分散を小さくするためには、確率変数 $X_i$ は以下の性質を満たせばよい。

$X_i$ の標準偏差 $σ$ が小さいだけではなく、 $\frac{\overline{X}^2}{ \sum_{i=1}^n (X_i - \overline X )^2}$ が小さい。
$X_i$ のばらつき $\sum_{i=1}^n (X_i - \overline X )^2$ が大きい。
標本の大きさ（サンプルサイズ） $n$ が大きい。