はじめに
この記事では最小二乗推定量(Ordinary Least Square Estimator;OLSE)の性質と、回帰分析を行う際の仮定について扱います。内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.1.3”Asymptotic OLS Inference”を参考にしています。
我々が実際にデータ分析を行う上で、CEFや母集団の回帰係数ベクトルが事前に分かっていることはほとんどありません。そのため標本(sample)を用いて統計的推論(statistical inference)を行います。統計的推論は、オーソドックスな計量経済学の太宗を占めるものです。
基本的な漸近理論(asymptotic theory)をおさらいしながら、統計的推論のプロセスを理解しましょう。このプロセスは回帰係数の推定量の解釈(つまり因果関係かどうか)とは直接は関係ありません。あくまでも標本から母集団の統計量を推定する仕組みを理解するものです。
最小二乗推定量の漸近的性質
我々の関心の対象は、回帰係数ベクトルの推定量の分布だとしましょう。
ここでベクトルがi.i.d(independently and identically distributed)*1だと仮定します。大数の法則により、サンプルサイズが十分に大きいとき、標本モーメントは母集団のモーメントに一致します。1次モーメント]、]の推定量は、2次モーメント]、]の推定量はそれぞれと表せます。この原則に従うと、モーメント法で導出したに登場するは、総和記号で置き換えることができます。したがっての推定量は、
と表せます。モーメント法で導出したをOLSEと呼ぶことに違和感があるかもしれませんが、は最小二乗問題の解でもあるため、誤りではありません。の漸近標本分布(asymptotic sampling distribution)は推定対象(estimand)の定義と、が確率変数であるという仮定に依存します。この分布を導出する前に、一般的な漸近分布理論をおさらいしましょう。
大数の法則(The Law of Large Numbers)
標本モーメントは母集団モーメントに確率収束する(converge in probability)。
言い換えると、標本サイズが十分に大きければ、標本平均は母集団の平均に収束する。
中心極限定理(The Central Limit Theorem)
標本モーメントは漸近的に正規分布に従う(asymptotically Normally distributed)。
言い換えると、標本サイズが十分に大きければ、標準化された標本モーメントは、正規分布に従う(正規分布に法則収束(converge in distribution)する)。
スラツキーの定理(Slutsky's Theorem)
確率変数の列が、確率変数に確率収束()、
確率変数の列が、定数に法則収束()するとき、次が成立する。
- 確率変数の列の和は、に法則収束()する。
- 確率変数の列の積は、に法則収束()する。
連続写像定理(The Continuous Mapping Theorem)
確率変数の列が、確率変数に確率収束()するとき、任意の連続関数)について、 が成立する。
連続写像定理は、確率変数の確率収束性が連続関数によって引き継がれる(pass through)ことを意味します。
デルタ法(The Delta Method)
漸近的に正規分布する確率変数)を仮定する。
連続微分可能な関数)について、点でが存在し、とする。
このとき、
が成立する。
)は)の勾配ベクトル(gradient vector)を表し、(3)は収束先の分散が勾配ベクトルと分散共分散行列の二次形式で表されています。
これらを用いての漸近分布(asymptotic distribution)を導出しましょう。
まずを、との差である誤差項を用いて書き直します。
これを(2)に代入すると、
大数の法則によって ]、、確率収束に対する連続写像定理から、(一致性;consistency)を示すことができます。
の漸近分布は、(5)を変形した以下の式の漸近分布と等しくなります。
中心極限定理より、
スラツキーの定理より、
漸近標準誤差は、不均一分散頑健標準誤差(heteroskedasticity-consistent standard error*2 )と呼ばれます。この標準誤差はデータやモデルに対して最小限の仮定を置くことで、仮説検定のための信頼区間を算出できるため「ロバスト」とも言われます。ただしこれはソフトウェアで算出されるデフォルトの標準誤差ではありません。多くのソフトウェアの標準誤差は均一分散性(homoskedasticity)、つまりの仮定の下計算されたものです。均一分散の仮定を置くことで、の分散(共分散行列)は簡潔に表されます。
(9)の対角成分がSASやStata*3で出力される分散です。回帰係数の推定量の統計的有意性は検定によって判断されます。検定統計量(t-statistics)を構築するための標準誤差は、この共分散行列の対角成分のルートをとったものです。実際には母集団の分散パラメータが分からない場合が多いので、代わりに残差の推定値を用いて、標準誤差を計算することが多いです。
回帰をCEFの近似だと考えると、むしろ分散は不均一だと仮定する方が自然かもしれません。仮に非線形なCEFを線形な回帰で近似する場合、当てはまりの良さはの値によって異なります。したがって当てはまりの悪い点においては残差が大きくなってしまいます。例えのによる条件付き分散が定数であっても、残差の分散はによって変わります。どういうことかと言うと、
(11)の右辺第2項はCEFと回帰関数の差分であり、これが大きくなることで残差の分散も大きくなるということです。
同様に、仮に線形なCEFの分散が均一であっても、必ずしも残差の分散が均一になる訳ではありません。線形確率モデル(linear probability model)を例に挙げてこれを説明しましょう。線形確率モデルの従属変数はか、または就業有無のようなダミー変数です。回帰モデルがsaturated、つまりCEFが線形だと仮定します。残差の分散もまた条件付き分散]*4です。しかし従属変数がかということは分散は*5となりに依存します。したがって説明変数が定数項のみという特殊な場合を除き、線形確率モデルは必然的に不均一分散となります。
誤差項が不均一だと問題なのか?
回帰モデルにおける誤差項はそもそも観察できない変数です。したがって誤差項がどのような分布に従うかは、各研究者が仮定を与えるものです。仮に誤差項が不均一の場合、当然推定量の分散が大きくなってしまうのですが、さして問題にならないケースもあります。
IPUMSのデータを用い、賃金を教育年数に回帰させるモデルを推定します。ここでは個人レベルのマイクロデータ、そして教育年数別にグループ化されたデータの2種類を扱います。以下は、個人データを用いた回帰結果です。上表が通常のOLS、下表がロバスト標準誤差の場合です。通常の回帰係数の標準誤差は0.0003386であり、ロバスト標準誤差は0.00038102と大差はありません。
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.9951823 0.0044644 1118.9 <2e-16 *** educ 0.0708510 0.0003386 209.2 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
t test of coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.99518232 0.00507387 984.49 < 2.2e-16 *** educ 0.07085104 0.00038102 185.95 < 2.2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
続いて教育年数別にグループ化されたデータです。
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.914762 0.008233 597.0 <2e-16 *** educ 0.077650 0.000659 117.8 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
t test of coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.91476155 0.00625734 785.44 < 2.2e-16 *** educ 0.07765006 0.00045705 169.89 < 2.2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
通常の回帰係数の標準誤差は 0.000659であり、ロバスト標準誤差は0.00045705とその差は大きくなっています。大差はありません。両者の値が30%以上異なる場合、プログラミングミスや標本抽出上のバイアスが発生していないかを注意すべきでしょう。
回帰分析の標準的仮定
従来の計量経済学では回帰分析を使って統計的推論を行うにあたり強い仮定を置いていました。
回帰モデルの古典的仮定(classical normal regression model)
- 非確率的な説明変数
- 線形なCEF
- 誤差項が正規分布に従う
- 誤差項の均一分散
この仮定から導出できるのは、まずOLSEの不偏性(unbiasedness)、そしてサンプルサイズが十分に大きい場合と同様にOLSEの標本分散が十分に小さい(valid in small)という性質です*6。不偏性とはです。サンプルサイズに依らず成立する性質*7であり、先述の一致性よりも強い仮定です。不偏性は以下のように示すことができます。
が確率変数ではない場合、より不偏性が成立します。が確率変数の場合、繰り返し期待値の法則によりが成立します。我々が統計的推論を学ぶにあたり、まず漸近理論から出発したのは現代の計量経済学で用いられる統計的推論は、多くを大標本理論に依拠しているためです。
終わりに・感想
かなり骨の折れる内容でした。漸近理論が出てくるか出てこないかで、計量経済学のテキストのレベルがかなり変わると思います。ちなみに私が修士課程でエコノメを履修した際の標準的仮定は以下のような項目でした。
- 説明変数は非確率変数
2番目は一致性を導くための条件。3,4,5番目はまさに誤差項の均一分散の仮定です。
同時に不均一分散を検証するためのブルーシュ=ペーガン・テストも習いました。しかし、少なくとも私は実際に実証研究の論文を読んで分散が均一じゃないからどうこう、という説明を読んだことはありません。不均一分散の検定がある、という裏にはきっと不均一より均一の方が良い、という思想があってこそだと思います。確かに標準誤差の小さい推定量は求まりますが、有意の星をゲットするために大雑把な仮定を置いているようにも見えます。もしくは計量経済学の黎明期には今ほどコンピュータの計算性能が良くなかったため、分散共分散行列が対角行列の方が計算しやすかったという技術的な要請があったのかもしれません。この辺りはご知見のある方と議論してみたいです。。読んでいただいてありがとうございました。
参考文献
*1: が異なるについて独立、かつ、同一の同時分布に従うことを意味します。標本が同一の母集団からの無作為抽出によって得られたものであればこの仮定は満たされます。
*2:別名をrobust standard error, Whiteの標準誤差と呼びます
*3:計量ソフトの名前。私はSASは使ったことがありません。
*4:もちろん残差は正規分布に従いません。
*5:条件付きベルヌーイ試行の分散です
*6:これ最初は有効性(efficiency)を指しているのかと思いました。ただし有効性(最小分散)ならばガウス・マルコフの定理によってサポートされますが誤差項の均一を仮定することになり前後の文脈と合わないな、とも思って「十分に小さい」としました。
*7:小標本理論と呼びます。