【Mostly Harmless Ch.3.1.3】最小二乗推定量の漸近的性質

はじめに

この記事では最小二乗推定量（Ordinary Least Square Estimator；OLSE）の性質と、回帰分析を行う際の仮定について扱います。内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.1.3”Asymptotic OLS Inference”を参考にしています。

我々が実際にデータ分析を行う上で、CEFや母集団の回帰係数ベクトルが事前に分かっていることはほとんどありません。そのため標本（sample）を用いて統計的推論（statistical inference）を行います。統計的推論は、オーソドックスな計量経済学の太宗を占めるものです。

基本的な漸近理論（asymptotic theory）をおさらいしながら、統計的推論のプロセスを理解しましょう。このプロセスは回帰係数の推定量の解釈（つまり因果関係かどうか）とは直接は関係ありません。あくまでも標本から母集団の統計量を推定する仕組みを理解するものです。

はじめに
最小二乗推定量の漸近的性質
誤差項が不均一だと問題なのか？
回帰分析の標準的仮定
終わりに・感想
参考文献

最小二乗推定量の漸近的性質

我々の関心の対象は、回帰係数ベクトル $β$ の推定量の分布だとしましょう。

${ \begin{eqnarray} β &=& E[X_iX_i']^{-1} E[X_iY_i] \tag{1} \end{eqnarray} }$

ここでベクトル $(Y_i,X_i)$ がi.i.d（independently and identically distributed）*1だと仮定します。大数の法則により、サンプルサイズが十分に大きいとき、標本モーメントは母集団のモーメントに一致します。1次モーメント $E[X_i$ ]、 $E[Y_i$ ]の推定量は $\frac{1}{N}\sum_{i}X_i,\frac{1}{N}\sum_{i}Y_i$ 、2次モーメント $E[X_iX_i'$ ]、 $E[Y_iY_i'$ ]の推定量はそれぞれ $\frac{1}{N}\sum_iX_iX_i',\frac{1}{N}\sum_iY_i,Y_i'$ と表せます。この原則に従うと、モーメント法で導出した $β$ に登場する $E[\cdot]$ は、総和記号 $\sum$ で置き換えることができます。したがって $β$ の推定量は、

${ \begin{eqnarray} \hat{β} &=& \left[\sum_i X_iX_i' \right]^{-1} \sum_i X_iY_i \tag{2} \end{eqnarray} }$

と表せます。モーメント法で導出した $\hat{β}$ をOLSEと呼ぶことに違和感があるかもしれませんが、 $\hat{β}$ は最小二乗問題の解でもあるため、誤りではありません。 $\hat{β}$ の漸近標本分布（asymptotic sampling distribution）は推定対象（estimand）の定義と、 $(Y_i,X_i)$ が確率変数であるという仮定に依存します。この分布を導出する前に、一般的な漸近分布理論をおさらいしましょう。

大数の法則（The Law of Large Numbers）

標本モーメントは母集団モーメントに確率収束する(converge in probability)。
言い換えると、標本サイズが十分に大きければ、標本平均は母集団の平均に収束する。

中心極限定理（The Central Limit Theorem）

標本モーメントは漸近的に正規分布に従う（asymptotically Normally distributed）。
言い換えると、標本サイズが十分に大きければ、標準化された標本モーメントは、正規分布に従う（正規分布に法則収束（converge in distribution）する）。

過去の記事では簡単に大数の法則と中心極限定理を扱いました。

スラツキーの定理（Slutsky's Theorem）

確率変数の列 $a_N$ が、確率変数 $a$ に確率収束（ $a_N\stackrel{p}{\longrightarrow }a$ ）、
確率変数の列 $b_N$ が、定数 $b$ に法則収束（ $b_N\stackrel{d}{\longrightarrow }b$ ）するとき、次が成立する。

確率変数の列の和 $a_N+b_N$ は、 $a+b$ に法則収束（ $a_N+b_N\stackrel{d}{\longrightarrow }a+b$ ）する。

確率変数の列の積 $a_Nb_N$ は、 $ab$ に法則収束（ $a_Nb_N\stackrel{d}{\longrightarrow }ab$ ）する。

連続写像定理（The Continuous Mapping Theorem）

確率変数の列 $b_N$ が、確率変数 $b$ に確率収束（ $a_N\stackrel{p}{\longrightarrow }a$ ）するとき、任意の連続関数 $h(・$ )について、 $h(b_n)\stackrel{p}{\longrightarrow }h(b)$ が成立する。

連続写像定理は、確率変数の確率収束性が連続関数によって引き継がれる（pass through）ことを意味します。

デルタ法（The Delta Method）

漸近的に正規分布する確率変数 $b_N\stackrel{d}{\longrightarrow }\mathcal{N}(b,\Omega$ )を仮定する。
連続微分可能な関数 $h(・$ )について、点 $b$ で $\nabla h(b)$ が存在し、 $\nabla h(b)\neq 0$ とする。
このとき、
$\sqrt{n} ({h(b_N) -h(b)}) \stackrel{d}{\longrightarrow }\mathcal{N} (0,\nabla h(b)' \Omega \nabla h(b))\tag{3}$
が成立する。

$\nabla h(b$ )は $h(b$ )の勾配ベクトル（gradient vector）を表し、(3)は収束先の分散が勾配ベクトルと分散共分散行列 $\Omega$ の二次形式で表されています。

これらを用いて $\hat{β}$ の漸近分布（asymptotic distribution）を導出しましょう。

まず $Y_i$ を、 $Y_i$ と $X_i'β$ の差である誤差項 $e_i$ を用いて書き直します。

${ \begin{eqnarray} Y_i &=&X_i'β +[Y_i - X_i'β] \equiv X_i'β + e_i\tag{4} \end{eqnarray} }$

これを(2)に代入すると、

${ \begin{eqnarray} \hat{β}&=& β + \left[\sum_i X_i X_i'\right]^{-1}\sum_i X_ie_i \\ &=& β + \left[\frac{1}{n}\sum_i X_i X_i'\right]^{-1}\frac{1}{n}\sum_i X_ie_i \tag{5} \end{eqnarray} }$

大数の法則によって $\frac{1}{n}\sum_i X_i X_i' \stackrel{p}{\longrightarrow } E[X_iX_i'$ ]、 $\frac{1}{n}\sum_i X_i e_i \stackrel{p}{\longrightarrow } E[X_ie_i] =0$ 、確率収束に対する連続写像定理から、 $\hat{β}\stackrel{p}{\longrightarrow } β$ （一致性；consistency）を示すことができます。

$\hat{β}$ の漸近分布は、(5)を変形した以下の式の漸近分布と等しくなります。

${ \begin{eqnarray} \sqrt{n}(\hat{β} - β)&=& \left[\frac{1}{n}\sum_i X_i X_i'\right]^{-1}\frac{1}{\sqrt{n}}\sum_i X_ie_i \\\tag{6} \end{eqnarray} }$

中心極限定理より、

${ \begin{eqnarray} \frac{1}{\sqrt{n}}\sum_i X_ie_i \stackrel{d}{\longrightarrow }\mathcal{N}(0,E[X_iX_i'e_i^2]) \tag{7} \end{eqnarray} }$

スラツキーの定理より、

${ \begin{eqnarray} \sqrt{n}(\hat{β} - β) &\stackrel{d}{\longrightarrow}& E[X_iX_i']^{-1} \mathcal{N}(0,E[X_iX_i'e_i^2])\\ &=& \mathcal{N}(0,E[X_iX_i']^{-1}E[X_iX_i'e_i^2]E[X_iX_i']^{-1} ) \tag{8} \end{eqnarray} }$

漸近標準誤差は、不均一分散頑健標準誤差（heteroskedasticity-consistent standard error*2 ）と呼ばれます。この標準誤差はデータやモデルに対して最小限の仮定を置くことで、仮説検定のための信頼区間を算出できるため「ロバスト」とも言われます。ただしこれはソフトウェアで算出されるデフォルトの標準誤差ではありません。多くのソフトウェアの標準誤差は均一分散性（homoskedasticity）、つまり $E[e_i^2|X_i] = σ^2$ の仮定の下計算されたものです。均一分散の仮定を置くことで、 $\hat{β}$ の分散（共分散行列）は簡潔に表されます。

${ \begin{eqnarray} Var[\hat{β}]&=& E[X_iX_i']^{-1}E[X_iX_i'e_i^2]E[X_iX_i']^{-1} \\ &=& E[X_iX_i']^{-1}σ^2E[X_iX_i']E[X_iX_i']^{-1} \\ &=&σ^2E[X_iX_i']^{-1} \\ \tag{9} \end{eqnarray} }$

(9)の対角成分がSASやStata*3で出力される分散です。回帰係数の推定量の統計的有意性は $t$ 検定によって判断されます。 $t$ 検定統計量（t-statistics）を構築するための標準誤差は、この共分散行列の対角成分のルートをとったものです。実際には母集団の分散パラメータ $σ^2$ が分からない場合が多いので、代わりに残差の推定値 $\hat{e_i}^2$ を用いて、標準誤差を計算することが多いです。

${ \begin{eqnarray} s^2 &=& \frac{\sum_i{X_iX_i'\hat{e_i}^2}}{N} \tag{10} \end{eqnarray} }$

回帰をCEFの近似だと考えると、むしろ分散は不均一だと仮定する方が自然かもしれません。仮に非線形なCEFを線形な回帰で近似する場合、当てはまりの良さは $X_i$ の値によって異なります。したがって当てはまりの悪い点 $X_i$ においては残差が大きくなってしまいます。例え $Y_i$ の $X_i$ による条件付き分散 $V[Y_i|X_i]$ が定数であっても、残差の分散 $E[(Y_i-X_i'β)^2|X_i]$ は $X_i$ によって変わります。どういうことかと言うと、

${ \begin{eqnarray} E[(Y_i-X_i'β)^2|X_i] &=& E\{ [(Y_i-E[Y_i|X_i]) +(E[Y_i|X_i] -X_i'β)]^2|X_i \}\\ &=& V[Y_i|X_i] + (E[Y_i|X_i]-X_i'β)^2 \tag{11} \end{eqnarray} }$

(11)の右辺第2項はCEFと回帰関数の差分であり、これが大きくなることで残差の分散も大きくなるということです。

同様に、仮に線形なCEFの分散が均一であっても、必ずしも残差の分散が均一になる訳ではありません。線形確率モデル（linear probability model）を例に挙げてこれを説明しましょう。線形確率モデルの従属変数は $0$ か $1$ 、または就業有無のようなダミー変数です。回帰モデルがsaturated、つまりCEFが線形だと仮定します。残差の分散もまた条件付き分散 $V[Y_i|X_i$ ]*4です。しかし従属変数が $0$ か $1$ ということは分散は $P[Y_i|X_i](1-P[Y_i|X_i])$ *5となり $X_i$ に依存します。したがって説明変数が定数項のみという特殊な場合を除き、線形確率モデルは必然的に不均一分散となります。

誤差項が不均一だと問題なのか？

回帰モデルにおける誤差項はそもそも観察できない変数です。したがって誤差項がどのような分布に従うかは、各研究者が仮定を与えるものです。仮に誤差項が不均一の場合、当然推定量の分散が大きくなってしまうのですが、さして問題にならないケースもあります。

IPUMSのデータを用い、賃金を教育年数に回帰させるモデルを推定します。ここでは個人レベルのマイクロデータ、そして教育年数別にグループ化されたデータの2種類を扱います。以下は、個人データを用いた回帰結果です。上表が通常のOLS、下表がロバスト標準誤差の場合です。通常の回帰係数の標準誤差は0.0003386であり、ロバスト標準誤差は0.00038102と大差はありません。

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 4.9951823  0.0044644  1118.9   <2e-16 ***
educ        0.0708510  0.0003386   209.2   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

t test of coefficients:

              Estimate Std. Error t value  Pr(>|t|)    
(Intercept) 4.99518232 0.00507387  984.49 < 2.2e-16 ***
educ        0.07085104 0.00038102  185.95 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

続いて教育年数別にグループ化されたデータです。

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 4.914762   0.008233   597.0   <2e-16 ***
educ        0.077650   0.000659   117.8   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

t test of coefficients:

              Estimate Std. Error t value  Pr(>|t|)    
(Intercept) 4.91476155 0.00625734  785.44 < 2.2e-16 ***
educ        0.07765006 0.00045705  169.89 < 2.2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

通常の回帰係数の標準誤差は 0.000659であり、ロバスト標準誤差は0.00045705とその差は大きくなっています。大差はありません。両者の値が30%以上異なる場合、プログラミングミスや標本抽出上のバイアスが発生していないかを注意すべきでしょう。

回帰分析の標準的仮定

従来の計量経済学では回帰分析を使って統計的推論を行うにあたり強い仮定を置いていました。

回帰モデルの古典的仮定（classical normal regression model）

非確率的な説明変数

線形なCEF

誤差項が正規分布に従う

誤差項の均一分散

この仮定から導出できるのは、まずOLSEの不偏性（unbiasedness）、そしてサンプルサイズが十分に大きい場合と同様にOLSEの標本分散が十分に小さい（valid in small）という性質です*6。不偏性とは $E[\hat{β}]=β$ です。サンプルサイズに依らず成立する性質*7であり、先述の一致性よりも強い仮定です。不偏性は以下のように示すことができます。

${ \begin{eqnarray} E[\hat{β}] = β + E\left\{ \left[\sum{X_{i}X'_{i}}\right]^{-1} \sum{X_{i}e_{i}} \right\} \tag{11} \end{eqnarray} }$

$X_i$ が確率変数ではない場合、 $E[e_i]=0$ より不偏性が成立します。 $X_i$ が確率変数の場合、繰り返し期待値の法則により $E[e_i|X_i]=0$ が成立します。我々が統計的推論を学ぶにあたり、まず漸近理論から出発したのは現代の計量経済学で用いられる統計的推論は、多くを大標本理論に依拠しているためです。

終わりに・感想

かなり骨の折れる内容でした。漸近理論が出てくるか出てこないかで、計量経済学のテキストのレベルがかなり変わると思います。ちなみに私が修士課程でエコノメを履修した際の標準的仮定は以下のような項目でした。

説明変数 $X_i$ は非確率変数
$\sum(X_i-\bar{X_i})^2 \rightarrow \infty$
$E[e_i]=0$ 　 $, \forall i$
$V[e_i]=σ^2$ $,\forall i$
$Cov(e_i,e_j)=0$ $,\forall i, i \neq j$

2番目は一致性を導くための条件。3,4,5番目はまさに誤差項の均一分散の仮定です。

同時に不均一分散を検証するためのブルーシュ＝ペーガン・テストも習いました。しかし、少なくとも私は実際に実証研究の論文を読んで分散が均一じゃないからどうこう、という説明を読んだことはありません。不均一分散の検定がある、という裏にはきっと不均一より均一の方が良い、という思想があってこそだと思います。確かに標準誤差の小さい推定量は求まりますが、有意の星をゲットするために大雑把な仮定を置いているようにも見えます。もしくは計量経済学の黎明期には今ほどコンピュータの計算性能が良くなかったため、分散共分散行列が対角行列の方が計算しやすかったという技術的な要請があったのかもしれません。この辺りはご知見のある方と議論してみたいです。。読んでいただいてありがとうございました。