Goodな生活

経済学→環境コンサル→データサイエンティスト

【Mostly Harmless Ch.2.3】実験データを使った回帰分析

はじめに

この記事では回帰分析を使って実験データ(experimental data)を分析する方法を扱います。内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Chapter2.3"Regression Analysis of Experiments"に依拠しています。

前回の記事でも扱ったKruger(1999)を題材に、なぜ回帰分析を用いて因果推論ができるのか、について簡単に解説します。

回帰分析で因果推論ができる?

Kruger(1991)はクラス規模が教育効果(テストの点数)に与える影響をRCTを使って検証しました。

Alan B. Krueger, 1999. "Experimental Estimates of Education Production Functions" The Quarterly Journal of Economics, Oxford University Press, vol. 114(2), pages 497-532.

Kruger(1991)の用いた観察データY_i(テストの点数)は、潜在結果(potential outcome)Y_{0i},Y_{1i}と小規模クラスダミーD_i*1によって表すことができます。


 {
\begin{eqnarray}
Y_i &=& 
\left\{\begin{array}{l}
Y_{1i} &if &D_i = 1\\
Y_{0i} &if &D_i =0 \\
\end{array}
\right. \\
&=& Y_{0i} + (Y_{1i} - Y_{0i} ) D_i \tag{1}
\end{eqnarray}
}


小さい規模クラスに属することによって点数がアップする因果効果Y_{1i} - Y_{0i} が各人iにとって共通、つまり定数ρだと仮定すると、(1)を回帰式の形で書き表すことができます。


 {
\begin{eqnarray}
Y_i &=& α + ρ D_i + ε_i  \tag{2}
\end{eqnarray}
}


ここではα=E[Y_{0i}]です。ρ処置効果(Treatment Effect)*2です。D_i=\{0,1\}のそれぞれの場合のY_i条件付き期待値の差をとると、


 {
\begin{eqnarray}
E[Y_i|D_i = 1] - E[Y_i |D_i =0] &=& \underbrace{ρ}_{Treatment\,effect} + \underbrace{E[ε_i|D_i = 1] - E[ε_i|D_i =0]}_{Selection\, bias} \tag{3}
\end{eqnarray}
}

セレクションバイアスは、誤差項ε_iとクラス規模D_iの相関によって生じていることが分かります。この相関は元々は潜在結果Y_{0i},Y_{1i}とクラス規模D_iの相関に由来するものです。したがって元々小規模クラスには成績の悪い生徒がいる、等のバイアスが発生している可能性があります。

Kruger(1999)が分析したSTARプロジェクトでは、RCTによりD_iがランダムに割り当てられており、セレクションバイアスの項が消失していました。そのためY_{i}D_{i}に回帰させることでρ を推定することができました。下表の1行目がρ の推計結果です。

説明変数\識別 (1) (2) (3) (4)
Small class
4.82
(2.19)
5.37
(1.26)
5.36
(1.21)
5.37
(1.19)
Regular/aide
0.12
(2.23)
0.29
(1.13)
0.53
(1.09)
0.31
(1.07)
Controls No No Yes Yes
School fixed effect No Yes Yes Yes

Kruger(1999)より筆者作成 

共変量の役割

上表にはクラス規模を表す説明変数の他にControlやSchool fixed effectという行がありますが、これはD_{i}以外の共変量(covariates)です。Kruger(1999)が推定したのは、(2)に共変量X_iを加えた以下の式です。


 {Y_i =α + ρD_i + X_i' γ + ε_i \tag{4}}


回帰の目的は因果効果であるρの推定なのに、なぜ共変量を回帰モデルに加える必要があるのでしょうか。それは共変量が回帰モデルにおいて固定効果(fixed effect)、そしてコントロール変数(control variable)の役割を果たすためです。

まず固定効果ですが、STARプロジェクトにおける生徒の割り振りはあくまで同じ学校の中のクラスの話であり、異なる学校間の割り振りではありません。例えば都市部と田舎の学校では当然クラスの大きさにも違いがあるはずでしょう。上表の(2),(3),(4)の識別では、固定効果を含めることで、実験が行われた学校特有の効果を捉え、クラス規模が点数に与える影響のうち学校特有の要因を区別しているのです。

2つ目のコントロール変数は、D_{i}との相関が考えられる人種、年齢、フリーランチの有無など生徒の特徴を表す変数を指します。コントロール変数を含めることで、D_{i}との相関が考えられる生徒の特徴がテストの点数Y_iに与える影響を捉え、クラス規模が点数に与える影響を区別しています。もちろんクラス別にこれら生徒の特徴がバランスしている場合*3、つまりこれらのコントロール変数がD_{i}と独立しているならばρの推定値に何ら影響は与えません。(2)と(3)のρの推定量はほとんど同じになります。

共変量X_{i}を回帰式に加えることの利点は、より正確な因果効果の推計です。というのも上表の(3),(4)の識別におけるsmall classの回帰係数の標準誤差(1.21、1.19)は(2)の標準誤差(1.26)よりも小さくなっています。これはX_iY_iについてそれなりの説明力をもっていたことを示しています。同様に、学校の固定効果を加えることによってもsmall classの回帰係数の標準誤差が小さくなっています。他方、同じ実験では、教師の経験年数や年齢(teachers experiment, age)はそもそもランダムに割り振られているため、影響力は小さい(推定値の絶対値が小さく、また標準誤差の改善幅も小さい)ことも分かっています。共変量の2つの役割の意味は異なりますが、どちらもセレクションバイアスに対処するための操作なのです。

終わりに・感想

多くの計量経済学の教科書では、回帰分析における回帰係数ρは最小二乗推定量として説明されるかと思います。誤差項の二乗を最小にするために正規方程式を使ってどうこうというプロセスです。Angrist & Pischke(2008)には正規方程式は登場せず、回帰係数が処置効果を表すパラメータとして説明される点が特徴だと思います。次の記事は回帰係数の数学的な特徴について書きます。読んでいただいてありがとうございました。

参考文献

Mostly Harmless Econometrics: An Empiricist's Companion

Mostly Harmless Econometrics: An Empiricist's Companion

*1:分かりやすさのためD_iは大規模クラス有無を表す二項変数で記載しましたが、連続変数の方が適切かもしれません。

*2:ここでは平均処置効果(Average Treatment Effect)と同義で使われています。

*3:処置群とコントロール群において、各共変量の平均値や分散などに大きな違いがない場合のことです