【Mostly Harmless Ch.3.2.2】欠落変数バイアス

はじめに

この記事では識別を考える上で重要な欠落変数バイアスについて扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.2.2" The Omitted Variables Bias Formula"を参考にしています。

前回の記事では共変量 $X_i$ が与えられたとき、介入・処置 $C_i,s_i$ が潜在結果 $Y_{0i},Y_{1i}$ と独立である条件付き独立の仮定（Conditional Independence Assumption; CIA）を学びました。この仮定があることで、介入・処置は従属変数および誤差項と独立であることが保証され、因果効果（causal effect）を推計することができます。逆に言うと、共変量 $X_i$ が与えられない限り、従属変数と誤差項が相関するため因果関係の検証はできません。これをセレクションバイアスと呼びました。セレクションバイアスに対処するための具体的な作業の一つが、介入・処置変数 $C_i,s_i$ と相関がありそうな共変量 $X_i$ を回帰モデルの右辺に含めて推計を行う、というものです。CIAは回帰モデルに共変量 $X_i$ を含める根拠となります。

はじめに
欠落変数バイアスの問題点
CIAはどんな状況で成立するのか？
- 介入や処置が偶然決定される「自然実験的状況」を利用した先行研究-Black et al.(2003)
- 介入や処置の決定プロセス（要件）に着目した研究-Angrist（1998）
終わりに・感想
参考文献

欠落変数バイアスの問題点

介入や処置と相関の考えられる、本来コントロールすべき共変量をモデルから取り除いてしまうことで生じるバイアスを欠落変数バイアス（Omitted Variable Bias）と呼びます。バイアスが生じる、とは検証したい因果効果を表す回帰係数ベクトルの推定値の精度が悪くなる、という意味です。

教育年数（介入）が年収（従属変数）に与える影響を考えましょう。

${ Y_i = α + ρs_i + A_{i}'γ + e_i \tag{1} }$

従属変数 $Y_i$ は年収、 $s_i$ は教育年数、 $A_i$ は家族の年収、知性、やる気など教育年数に影響を及ぼす能力（Ability）に関する共変量です。能力がある生徒ほど大学に進学するので教育年数は伸びるだろうという話ですね。誤差項 $e_i$ は説明変数と独立だと仮定します。能力 $A_i$ を所与とした場合のCIAにより、教育年数 $s_i$ は年収 $Y_i$ の潜在結果と独立します。 $s_i$ が $Y_i$ に与える因果効果を求めるには $ρ$ を推定すればよいことが分かります。

$A_i$ を表すデータを持っていれば話は早いですが、そう簡単にデータが取得できるとも限りません。ここは一旦 $A_i$ を含めずに(1)を推定した場合の $ρ$ の推定値を見てみましょう。

${ \frac{Cov(Y_i,s_i)}{V(X_i)} = ρ + \underbrace{γ'δ_{As}}_{Omitted \, Variables\,Bias} \tag{2} }$

$δ_{As}$ は能力 $A_i$ を教育年数 $s_i$ に回帰したモデルの回帰係数ベクトルです。別の表現をすると $\frac{Cov(A_i,s_i)}{V(s_i)}$ です。 $δ_{As}$ は能力と教育年数の共分散 $Cov(A_i,s_i)$ の正負によって符号が変わります。能力の高い人ほどより長く教育を受けるという相関がある場合はこの項はプラスになるため、本来推定したい $ρ$ を過剰評価してしまいます。負の相関の場合は過少評価です。

具体例を見てみましょう。下表は異なる共変量を含んで(1)を推計した場合の、 $ρ$ の推定値と標準誤差が記載されています。(1)は共変量（control）なし、つまり単回帰の結果です。(2)～(5)までは一つずつ共変量が追加された識別の結果が示されています。年齢や人種といったデモグラフィック変数、入隊審査試験の点数（AFQTスコア）などを回帰モデルに加えていくと $ρ$ の推定値が小さくなっていくのが分かります。このことから、これらの共変量は年収や教育年数と正の相関を持っていたということが分かります。

もちろん不必要に共変量を含めすぎることも問題です。これについては次回の記事で扱います。

CIAはどんな状況で成立するのか？

さて、欠落変数バイアスに対処するのはそもそも因果効果を推定するためでした。回帰分析を使って因果効果を推定するには、条件付き独立の仮定（CIA）が必要です。回帰モデルに共変量を含める根拠の一つがCIAです。このCIAはどのような状況で成立するのでしょうか。以下、2つの先行研究を概要をレビューしましょう。

介入や処置が偶然決定される「自然実験的状況」を利用した先行研究-Black et al.(2003)

理想的なケースは､介入や処置が被験者にランダムに割り振られる自然実験（natural experiment）的状況を利用することです｡

Black, Dan, A., Jeffrey A. Smith, Mark C. Berger, and Brett J. Noel. 2003. "Is the Threat of Reemployment Services More Effective Than the Services Themselves? Evidence from Random Assignment in the UI System." American Economic Review, 93 (4): 1313-1327.

BIack et al. （2003）は失業者を対象にした職業訓練プログラムが収入に与える効果を検証しました。プログラムの参加要件は過去の就業経験や個人の特性によって決まります。参加者はこれらの特徴に基づいて複数のグループに分けられました。あるグループにはプログラムへの参加要件を与えず、別のグループには失業中である場合にプログラム参加を義務付けました。プログラムの受講人数よりも参加者が多い場合は、くじ引き（lottery）で受講可否が決まります。このとき、個人の特性（つまりプログラム参加有無と関係する共変量）が条件付けられた上で、参加資格はランダムに割り振られることになります。著者らはこの状況を利用し、失業者の収入をプログラム参加ダミーと共変量に回帰した結果、プログラムによる正の因果効果を推計できたのです。

もう一つのケースは、介入や処置の決定プロセスに関する背景知識を利用したものです。

介入や処置の決定プロセス（要件）に着目した研究-Angrist（1998）

Joshua D. Angrist, 1998. "Estimating the Labor Market Impact of Voluntary Military Service Using Social Security Data on Military Applicants," Econometrica, Econometric Society, vol. 66(2), pages 249-288, March.

Angrist（1998）は自発的な兵役参加がその後の生涯の年収に与えた影響を分析しました。米軍に参加した人は長期的に見て、別の仕事をするよりも稼げるのかどうか、というクエスチョンです。ところが自発的な参加という介入はランダムに行われるものではありません。そこで著者はマッチングと回帰分析を用いて、1979年から1982年の間に自発的に軍に入隊した人のうち、ベテラン（退役軍人）と非ベテランの収入の差をコントロールしました。このとき用いられた共変量は入隊審査の要件であった年齢、学歴、成績などです。

Angrist（1998）におけるCIAは、観察された共変量をコントロールすることで､ベテランと非ベテラングループは同じ特徴を持つグループになることを意味します。この仮定の面白いところは、共変量で条件付けた上のベテランと非ベテラングループの違いは、ほとんど合格水準に達していた何人かの志願者が入隊審査の最終断面で合格できなかったという事実のみに依る、という点です。もっとも入隊審査に受かる可能性のある志願者が選考プロセスの途中でドロップアウトした場合には、自発的な兵役参加という介入と潜在結果（収入）は独立せずCIAが成り立たないことになります。

以上、本来モデルに含めるべき変数を含めないことで生じる欠落変数バイアス、これに対処するために共変量をモデルに含める、共変量を含める根拠となるのがCIA、という論法です。CIAが成立する状況ではすでに共変量が存在するという前々提が成立しているので結果セレクションバイアスも対処できることと同義になる（と思われます）。

終わりに・感想

CIAとセレクションバイアスはセットで理解する概念なのだと思いました。私はこれまで自然実験や準実験的環境を活用した実証論文等を読みながら、なんとなくこの辺りの考え方に触れていましたが、改めて教科書の定義を確認した、という感じです。基本をおさらいすることは大事だと思います。読んでいただいてありがとうございました。