Goodな生活

Goodな生活

環境エネルギー分野のシンクタンク職員です。統計学や計量経済学の学習メモ、読んだ本や映画、たまに登山や音楽の話。

【Mostly Harmless Ch.3.3.3】職業訓練による賃金効果の推定(回帰分析vs傾向スコアマッチング)

はじめに

この記事では、職業訓練による賃金効果(因果効果)の推定ついて扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.3.3"Propensity Score Methods versus Regression"を参考にしています。

傾向スコアマッチングの登場により、研究者の関心は条件付き期待値E[Y_i|X_i,D_i]の推定から、傾向スコアp(X_i)=E[D_i|X_i]の推定へと変わりました。

Ashenfelter (1978)-セレクションバイアスの指摘(Ashenfelter's dip

Ashenfelter(1978)は、政府の職業訓練プログラムの参加者の多くに、賃金のくぼみ(dip)があることを指摘しました。

Ashenfelter, Orley C, 1978. "Estimating the Effect of Training Programs on Earnings," The Review of Economics and Statistics, MIT Press, vol. 60(1), pages 47-57, February.

これは一時的な失業者等が再就職する足掛かりとして職業訓練に参加するため、彼らが通常の就業状況に戻ったことを職業訓練プログラムの効果だと捉えてしまうバイアスです*1。一時的な失業つまり一時的な賃金の落ち込みだけが、プログラム参加者(treatment group)の特徴ならば、過去の賃金推移をコントロールすることで、職業訓練プログラムがその後の賃金に与える因果効果を推計できます。しかしながら、過去の賃金推移というのは連続かつ多次元な変数であるため、簡単に対照群(control group)とマッチングさせることができません。Ashenfelter(1978)はセレクションバイアスを克服するためのマッチングが困難であることを指摘しました。

Ashenfelter, Orley C, 1978. "Estimating the Effect of Training Programs on Earnings," The Review of Economics and Statistics, MIT Press, vol. 60(1), pages 47-57, February.

Lalonde(1986)-実験データ/非実験データの比較(回帰分析vs回帰分析)

Lalonde(1986)は、1976年~1977年にかけて行われたthe National Supported Work(NSW)による社会実験調査のデータを用い、職業訓練プログラムへの参加が賃金に与える因果効果を推定しました。

LaLonde, Robert J, 1986. "Evaluating the Econometric Evaluations of Training Programs with Experimental Data," American Economic Review, American Economic Association, vol. 76(4), pages 604-620, September.

元々NSWは処置群(treatment group)と対照群(control group)を含む社会実験(RCT)でした。Lalonde(1986)は対照群を外部データと差し替え、非実験データを用いた場合の処置効果(average treatment effect)を測ることによって、実験そのもののもつバイアスについて指摘しました。彼が用いた外部データは PSID(Panel Study of Income Dynamics)とCPS(Current Population Survey)です。これらの非実験データを用いた処置効果の推定結果はばらつきが多く、実験データ(RCT)を用いた結果には程遠いものでした。また、 Lalonde(1986)は実験データを用いたRCTの結果を知らなければ、非実験データを用いたもっとも妥当な識別(specification)や対照群(control group)を選択することは難しい、と述べています。つまり、 因果効果の推定のベンチマークとしては、実験的手法であるRCTが必要だということが分かった訳です。

Dehejia and Wahba(1999)-実験/非実験データの比較(回帰分析vs傾向スコアマッチング)

Dehejia and Wahba(1999)はNSWデータを使い、Lalonde(1986)の研究を再検討しました。

Rajeev H. Dehejia & Sadek Wahba (1999) Causal Effects in Nonexperimental Studies: Reevaluating the Evaluation of Training Programs, Journal of the American Statistical Association, 94:448, 1053-1062, DOI: 10.1080/01621459.1999.10473858

彼らは、傾向スコアを使用してNSW処置群と対象群をマッチングさせることにより、RCTと近い平均処置効果が得られることを発見しました。Lalonde(1986)と同様に、比較対象としてPSIDとCPSの外部データを用い、それぞれを3グループに分けました。

  • PSID-1:1975年に失業中だったすべての55歳以下の家計主の男性
  • PSID-2:PSID-1のうち、1976年春の調査時に失業中だった男性
  • PSID-3:PSID-2のうち、1975年に失業中だった男性
  • CPS-1:1975年に失業中だったすべての55歳以下の家計主の男性
  • CPS-2:CPS-1のうち、1976年春の調査時に失業中だった男性
  • CPS-3:CPS-2のうち、1975年に失業中だった男性

Table1はそれぞれのグループのデモグラフィック変数の記述統計です。

f:id:good_na_life:20200506140111p:plain
Dehejia and Wahba(1999)Table1

1行目のNSW/Lalondeは、Lalonde(1986)の用いた、ランダムに選ばれた処置群(treatment group)と同じくランダムに選ばれた対照群(conttol group)の記述統計です。例えばCPS-1に比べると、NSW/Lalondeのサンプルは、 若く、教育年数が短く、非白人が多く、年収が低いです。CPS-3はよりNSW処置群に近い特性を持つ(matches more closely)ものの、特に人種やプログラム参加前の年収に大きな違いがあります。

職業訓練プログラムの成果は、プログラム終了後の1978年の実質賃金で測ります。以下の回帰式を推定します。


\begin{eqnarray}
RE 78_i = x_i'β + αd_i + ε_i         \tag{1}
\end{eqnarray}

x_iは共変量(コントロール変数)、d_iは処置ダミー(treatment dummy) です。識別は5パターンあります。

NSWの実験結果(RCT)の平均処置効果は1,600~1,800ドルです。当然ですが、処置(プログラム参加)がランダムに割り振られているため、識別が違っても推定値は大きく変化しません。一方NSW参加者とCPS-1との賃金のギャップは-8,500ドルです。これはCPS-1の選択時にセレクションバイアス(一時的な失業者がプログラムに参加したバイアス)が発生しているためだと思われます。処置(treatment)と相関があると考えられるデモグラフィック変数とプログラム参加前の賃金を回帰式に含めることで、NSWの実験結果(RCT)の平均処置効果の差が小さくなります。CPS-1に比べ、サンプルを限定したCPS-3の推定結果は、NSWの実験結果(RCT)との差がより小さくなっています。これはCPS-3のサンプルの特徴がNSWのプログラム参加者の特徴と近いためです。

以上より、セレクションバイアスを防ぐために、あらかじめ失業状態であったサンプルであるCPS-3を対照群(control group)として用いた方が、RCTの結果と近い推定結果を得られることが分かりました。ここで問題なのは、どのようにCPS-3のようなサンプルを選べばよいか、です。

確かにCPS-3は職業訓練プログラムの効果を見るため、「プログラム参加前に既に失業中だった」という条件でサンプルを選んでいます。しかし、この選び方はややアドホックな選び方にも見えてしまいます。そこで、対照群の選び方(事前スクリーニング:pre screening)のためのシステマティックな方法が必要になるのです。

Crump et al.(2006) -対照群の選び方についての提案

Crump et al.(2006)(2006)は、回帰分析を行う前段階において、傾向スコアを使った対照群の選び方を提案しています*2

Richard K. Crump & V. Joseph Hotz & Guido W. Imbens & Oscar A. Mitnik, 2004. "Dealing with Limited Overlap in Estimation of Average Treatment Effects," Working Papers 0716, University of Miami, Department of Economics, revised 12 Jun 2007.

Crump et al.(2006)のアブストラクトです。

非交絡性の仮定(unconfoudness assumption)、強く無視できる割当の仮定(strongly ignorable assumption)の下での平均処置効果(average treatment effect)の推定は、処置群間の共変量分布の重複がないこと(lack of overlap)が原因で妨げられることが多い。このような重複の欠如は、不正確な推定値をもたらし、一般的に使用される推定量が仕様の選択に敏感になることがある。このような場合、研究者はしばしば標本をトリミングするためのアドホックな方法を使用してきた。我々は、重複の欠如に対処するための体系的なアプローチを開発する。平均処置効果が最も正確に推定できる最適な部分標本を特徴づける。ある条件の下では、最適な選択ルールは傾向スコアのみに依存する。広い範囲の分布における最適なルールへの近似は、[0.1,0.9]の範囲外で推定された傾向スコアを持つすべての観察データを破棄するという単純な経験則である。

まず非交絡性の仮定(unconfoudness assumption)とは、共変量を条件付けると、処置変数は潜在結果と独立であるという仮定です。次の強く無視できる割当の仮定(strongly ignorable assumption)は、以下(2)(3)の仮定を合わせたものです。



\begin{eqnarray}
\{Y_{0i},Y_{1i}\} \bot D_i|X_i \tag{2} \\ \\
\exists c > 0, \forall x \in \mathbb{X},    c \leq p(x) \leq 1-c \tag{3} 
\end{eqnarray}


強く無視できる割当の仮定は、共有サポート(common support)の仮定とも呼びます。それぞれの共変量について、処置を受けた人と受けていない人の両方が必ず存在するという仮定です。これらの仮定は Rosenbaum & Rubin(1983)によって示されたものです。

PAUL R. ROSENBAUM, DONALD B. RUBIN, The central role of the propensity score in observational studies for causal effects, Biometrika, Volume 70, Issue 1, April 1983, Pages 41–55, https://doi.org/10.1093/biomet/70.1.41

Crump et al.(2006)を踏まえて対照群を選びましょう。NSW処置群と観察された対象群の傾向スコアを推定し、 0.1< P(X_i) < 0.9の範囲に収まる観察データのみをピックアップします。つまり処置(treatment)を受ける確率が10%以上90%以下のサンプルに限定します。この操作により、treatmentとcontrolの両方が該当する共変量を含んだ回帰分析を行えるため、共変量分布に重複のない観察データについて外挿(extrapolation)する必要がなくなります。Table1の最後の2列は傾向スコアでスクリーニングされたサンプルの記述統計です。スクリーニングされていないサンプルに比べて、CPS-1,3の共分散の平均はNSWの平均により近くなっています。この操作により、CPS-1に内在するセレクションバイアスを克服することができるのです。

まとめ

今回の記事では職業訓練プログラムによる賃金効果を題材とした因果効果の推定について扱いました。古くは、Ashenfelter(1978)がプログラム参加者の中に一時的な失業者が含まれる(セレクションバイアスが生じている)ため、因果効果を過剰に推定しうると指摘しました。セレクションバイアスを克服する方法がRCTと呼ばれる実験的手法です。1976~1977年にかけてNSWと呼ばれる職業訓練プログラムの社会実験が行われました。処置群(プログラム参加者)と対照群をランダムに選び、平均処置効果(因果効果)として、処置群のプログラム参加前と参加後の賃金の差が推定されました。Laronde(1986)はNSWの対照群のデータを外部データに置き換え、RCTを用いたNSWの方法論自体のバイアスを検証しました。つまり実験データによるRCTと、非実験的データによる回帰分析で推定した平均処置効果がどれくらい異なるのかを確かめました。Laronde(1986)の結論は、RCTとただの回帰分析の結果は大きく異なるため、平均処置効果の推定の出発点としてはRCTが必要だ、というものでした。Dehejia and Wahba(1999)はLaronde(1986)の用いた対照群のデータ(外部データ)をさらに細かく分割し、プログラム参加前の一時的な失業者を除外すると、実験データによるRCTと、非実験的データによる回帰分析で推定した平均処置効果が近しい値になることが分かりました。対照群の選択の仕方が重要だった訳です。Crump et al.(2006)は対照群の選択時に傾向スコアを用いる方法を提案しました。RCTでいうランダム化のプロセスを、傾向スコアを計算することで非実験データにおいても行うという発想です。この操作により、傾向スコアに影響する共変量の分布がバランスするような処置群と対照群を生成することができます。非実験的データであってもRCTと似たような平均処置効果を推定する一つの方法に辿り着きました。

参考文献

Mostly Harmless Econometrics: An Empiricist's Companion

Mostly Harmless Econometrics: An Empiricist's Companion

https://www.jil.go.jp/institute/zassi/backnumber/2008/10/pdf/016-028.pdf

このノートのおかげで議論の流れが理解できました。
http://www.ier.hit-u.ac.jp/~kitamura/PDF/A228.pdf

  • カリフォルニア大学ロサンゼルス校 津川友介先生のブログ

特に共有サポート(共変量の分布のグラフ)の説明が分かりやすいです。
healthpolicyhealthecon.com

*1:これは統計学では「平均値への回帰」という古典的な問題であることが知られています。この問題はCh.3.4.3で扱います

*2:これは、平均処置効果の推定時に、傾向スコアを使って条件付けるという用法とは異なります。