はじめに
この記事では回帰分析を使って実験データ(experimental data)を分析する方法を扱います。内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Chapter2.3"Regression Analysis of Experiments"に依拠しています。
前回の記事でも扱ったKruger(1999)を題材に、なぜ回帰分析を用いて因果推論ができるのか、について簡単に解説します。
回帰分析で因果推論ができる?
Kruger(1991)はクラス規模が教育効果(テストの点数)に与える影響をRCTを使って検証しました。
Alan B. Krueger, 1999. "Experimental Estimates of Education Production Functions" The Quarterly Journal of Economics, Oxford University Press, vol. 114(2), pages 497-532.
Kruger(1991)の用いた観察データ(テストの点数)は、潜在結果(potential outcome)
と小規模クラスダミー
*1によって表すことができます。
小さい規模クラスに属することによって点数がアップする因果効果 が各人
にとって共通、つまり定数
だと仮定すると、(1)を回帰式の形で書き表すことができます。
ここではです。
は処置効果(Treatment Effect)*2です。
のそれぞれの場合の
条件付き期待値の差をとると、
セレクションバイアスは、誤差項とクラス規模
の相関によって生じていることが分かります。この相関は元々は潜在結果
とクラス規模
の相関に由来するものです。したがって元々小規模クラスには成績の悪い生徒がいる、等のバイアスが発生している可能性があります。
Kruger(1999)が分析したSTARプロジェクトでは、RCTによりがランダムに割り当てられており、セレクションバイアスの項が消失していました。そのため
を
に回帰させることで
を推定することができました。下表の1行目が
の推計結果です。
説明変数\識別 | (1) | (2) | (3) | (4) |
---|---|---|---|---|
Small class | 4.82(2.19) |
5.37(1.26) |
5.36(1.21) |
5.37(1.19) |
Regular/aide | 0.12(2.23) |
0.29(1.13) |
0.53(1.09) |
0.31(1.07) |
Controls | No | No | Yes | Yes |
School fixed effect | No | Yes | Yes | Yes |
Kruger(1999)より筆者作成
共変量の役割
上表にはクラス規模を表す説明変数の他にControlやSchool fixed effectという行がありますが、これは以外の共変量(covariates)です。Kruger(1999)が推定したのは、(2)に共変量
を加えた以下の式です。
回帰の目的は因果効果であるの推定なのに、なぜ共変量を回帰モデルに加える必要があるのでしょうか。それは共変量が回帰モデルにおいて固定効果(fixed effect)、そしてコントロール変数(control variable)の役割を果たすためです。
まず固定効果ですが、STARプロジェクトにおける生徒の割り振りはあくまで同じ学校の中のクラスの話であり、異なる学校間の割り振りではありません。例えば都市部と田舎の学校では当然クラスの大きさにも違いがあるはずでしょう。上表の(2),(3),(4)の識別では、固定効果を含めることで、実験が行われた学校特有の効果を捉え、クラス規模が点数に与える影響のうち学校特有の要因を区別しているのです。
2つ目のコントロール変数は、との相関が考えられる人種、年齢、フリーランチの有無など生徒の特徴を表す変数を指します。コントロール変数を含めることで、
との相関が考えられる生徒の特徴がテストの点数
に与える影響を捉え、クラス規模が点数に与える影響を区別しています。もちろんクラス別にこれら生徒の特徴がバランスしている場合*3、つまりこれらのコントロール変数が
と独立しているならば
の推定値に何ら影響は与えません。(2)と(3)の
の推定量はほとんど同じになります。
共変量を回帰式に加えることの利点は、より正確な因果効果の推計です。というのも上表の(3),(4)の識別におけるsmall classの回帰係数の標準誤差(1.21、1.19)は(2)の標準誤差(1.26)よりも小さくなっています。これは
が
についてそれなりの説明力をもっていたことを示しています。同様に、学校の固定効果を加えることによってもsmall classの回帰係数の標準誤差が小さくなっています。他方、同じ実験では、教師の経験年数や年齢(teachers experiment, age)はそもそもランダムに割り振られているため、影響力は小さい(推定値の絶対値が小さく、また標準誤差の改善幅も小さい)ことも分かっています。共変量の2つの役割の意味は異なりますが、どちらもセレクションバイアスに対処するための操作なのです。
終わりに・感想
多くの計量経済学の教科書では、回帰分析における回帰係数は最小二乗推定量として説明されるかと思います。誤差項の二乗を最小にするために正規方程式を使ってどうこうというプロセスです。Angrist & Pischke(2008)には正規方程式は登場せず、回帰係数が処置効果を表すパラメータとして説明される点が特徴だと思います。次の記事は回帰係数の数学的な特徴について書きます。読んでいただいてありがとうございました。
参考文献

Mostly Harmless Econometrics: An Empiricist's Companion
- 作者:Angrist, Joahua D.,Pischke, Jorn-steffen
- 発売日: 2008/12/15
- メディア: ペーパーバック