Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す

【Mostly Harmless Ch.3.2.1】条件付き独立の仮定

はじめに

この記事では、共変量X_iを所与とし、介入効果C_iと結果変数Y_iとが無関係であるという条件付き独立の仮定(Conditional Independence Assumption;CIA)を扱います。

内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly harmless econometrics』Ch.3.2.1"The Conditional Independence Assumption"を参考にしています。

条件付き独立の仮定とは?

観察されたデータを元に因果推論を行うとき、潜在結果(potential outcome)という概念を用います。我々は大学進学が将来の年収に与える影響について関心があるとしましょう。


 {
Potential\,Outcome=\left\{ \begin{array}{ll}
Y_{1i} & if &\, C_i = 1 \\
Y_{0i} & if &\, C_i=0 \\ \tag{1}
\end{array} \right.
}


大学に進学するならC_i=1、進学しないならC_i=0です。Y_{1i}は大学に行った場合の年収、Y_{0i}は行かなかった場合の年収です。ここでY_{1i}Y_{0i}の差は「同じiさんが大学に行った場合と行かなかった場合の年収の差」なので因果効果(causal effect)を表します。実際に観察したデータである年収Y_iを、この因果効果を使って表してみましょう。


 {
Y_i = Y_{0i} + (Y_{1i} - Y_{0i})C_i \tag{2}
}


ここで重要なのは、我々はY_{1i}Y_{0i}のどちらか一方しか観察できないということです。同じiさんは大学に行く・行かないの両方を選択できません*1。潜在結果とは、潜在的にY_{1i},Y_{0i}が存在しますが、C_iの取りうる値によって実現する値(つまり我々が観察できる値)Y_iが異なる、という意味です。

因果関係を検証したい、けれどY_{1i}Y_{0i}の片方しか観察できない。ならば同じ個人iさんではなく、すべての人を対象にして「すべての人が大学に行った場合の平均年収とすべての人が大学に行かなかった場合の平均年収の差」もしくは「大学に行った人グループにおける平均的な因果効果」つまりE[Y_{1i}-Y_{0i}|C_i=1]を代わりに見ることで因果関係を検証しよう、という発想に至る訳です。

一般的には、大学に行ったグループと行かなかったグループの平均的な年収を比較しても、因果関係は分かりませんし、直観的には「当然大卒者の方が年収は高いだろう」とも考えれます。この場合、正のセレクションバイアスが発生していることになります。つまり「元々高い年収を得る素質や特徴を持つ人が大学に進学する」というバイアスが存在するため、大学に行った人と大学に行かなかった人の平均年収を比べても、因果効果を観察することにはならないのです。


 {
\begin{eqnarray}
 \underbrace{E[Y_i|C_i = 1] - E[Y_i |C_i =0]}_{Observed\,difference\,in\,earnings} &=& \underbrace{E[Y_{1i}-Y_{0i}|C_i =1]}_{Average\,treatment\, effect\,on\,the\,treated} +\underbrace{E[Y_{0i}|C_i = 1] - E[Y_{0i}|C_i =0]}_{Selection\, bias} \\ \tag{3}
\end{eqnarray}
}

前置きが長くなってしまいましたが、このセレクションバイアスに対処するための仮定が、条件付き独立の仮定(Conditional Independence Assupmtion; CIA)です。


 {
\begin{eqnarray}
\{Y_{0i},Y_{1i}\} \bot C_i | X_i \tag{4}
\end{eqnarray}
}


CIAは、年収に影響を与える素質や特徴などの共変量X_iを所与(条件)として、結果変数\{Y_{0i},Y_{1i}\}と介入効果C_iが独立であることをサポートします。

(3)の両辺を共変量X_iで条件付けてみましょう。


 {
\begin{eqnarray}
 E[Y_i|X_i,C_i = 1] - E[Y_i |X_i,C_i =0] &=& E[Y_{1i}-Y_{0i}|X_i]  \\ \tag{5}
\end{eqnarray}
}


(3)の第3項のセレクションバイアスがなくなり、因果効果を求める式となりました。ただし(5)はX_iによって因果効果の値が異なります。共変量X_iiさんの家族の年収だとすると、元々実家が裕福な人が大学に行った場合の年収に与える効果は○○、元々実家が貧乏な人の効果は××と、共変量次第で因果効果の大きさが変わってしまうため、一般的にどれくらい効果があるのかが分かりません。そこで因果効果を表す包括的な1つの指標を考えます。(5)に繰り返し期待値の法則をあてはめてみましょう。


 {
\begin{eqnarray}
E\{ E[Y_i|X_i,C_i = 1] - E[Y_i |X_i,C_i =0]\} &=& E[Y_{1i}-Y_{0i}]  \\ \tag{6}
\end{eqnarray}
}


これを母集団の条件なしの平均因果効果(unconditional average causal effect)と呼びます。同様に、大学に行ったグループの平均的な因果効果は、


 {
\begin{eqnarray}
E\{ E[Y_i|X_i,C_i = 1] - E[Y_i |X_i,C_i =0]|C_i=1\} &=& E[Y_{1i}-Y_{0i}|C_i=1]  \\ \tag{7}
\end{eqnarray}
}

となり、これは大学に行った人において、大卒が年収に与えた平均的な効果を表します。(6)はX_iの周辺分布を用いて、すべてのX_iによる効果の平均をとることで求められます。同様に(7)は大学に行ったグループにおけるX_iの周辺分布を使い、同じくX_iによる効果の平均をとることで求まります。

これらの変数はどちらも実証分析上、マッチング推計量(matching estimator)と呼びます。マッチングの話題は別の節で扱います。簡単に言うと、大学進学という選択以外は同じようなX_iを持つiさんたちのグループを2つ作り、それら別々のiさん同士をマッチングさせ、平均的な年収の違いを比較する、という考え方です。

ここまで介入効果を、大学進学の有無C_i = 0,1の例を使って説明しましたが、二項変数である必要はありません。例えば教育年数をs_i = 1,2,\cdotsとし、教育年数の違いが年収に与える影響についても同様に考えることができます。このとき潜在結果変数をY_{si}=f_i(s_i)と定義し、(6)、(7)式と同じように因果効果を表すことができます。例えば高卒と大卒の違いが収入に与える影響を考えましょう。小学校から数えると高卒までの教育年数はs=12、大卒まではs=16ですね。条件なしの平均因果効果、大卒グループの平均因果効果はそれぞれ次のように表すことができます。


 {
\begin{eqnarray}
E\{ E[Y_i|X_i,s_i = 16] - E[Y_i |X_i,s_i =12]\} &=& E\{E[f_{i}(16)-f_{i}(12)|X_i]\}  \\ 
                                                                        &=&E[f_{i}(16)-f_{i}(12)]  \\ \tag{6*}
\\
\\
E\{ E[Y_i|X_i,s_i = 16] - E[Y_i |X_i,s_i =0]|s_i=12\} &=& E\{E[f_{i}(16)-f_{i}(12)|s_i=16]\}  \\ 
                                                                               &=& E[f_{i}(16)-f_{i}(12)|s_i=16] \tag{7*}
\end{eqnarray}
}

回帰分析で因果推論ができる条件


条件付き独立の仮定(CIA)が成立することにより、回帰分析を用いて因果推論を行うことが可能になります。この「CIA→回帰分析→因果推論」のつながりについて、以下2通りの考え方を紹介します。ここからは潜在結果f_{i}(s)を使って考えましょう。

まずは f_{i}(s)が線形かつすべてのiさんにとって関数形が同じ、というケースです。このとき線形回帰はf_{i}(s)を推定するモデルそのものになりますね。ですが現実に即すとこの仮定は厳しいものです。個々人にとってf_{i}(s)の形は異なるでしょうし、ましてや一律線形とも考えにくいです。なのでもう1つは、iさんによってf_{i}(s)の形は異なり、非線形なf_i(s)も認めるケースです。このとき回帰分析は個々人の教育年数による年収の違い、f_i(s)-f_i(s-1)の重みづけ平均の推定値を導出することになります。

まずは1ケース目を考えましょう。


f_i(s) = α + ρs + e_i \tag{8}


(7)は線形な因果モデルです。右辺のsにはiが含まれていません。何を言いたいかと言うと、(8)では実際にiさんが受けた教育年数s_iについての情報は含んでおらず、f_(s)仮にs年の教育を受けた場合はどれぐらい稼ぐのかを表しています。観察されたデータs_iを(7)に代入してみましょう。


Y_i = α + ρs_i + e_i\tag{9}


左辺も観察された年収(実現値)となっております。ここで重要なのがs_iは潜在結果変数f_i(s)や誤差項のe_iとも相関している可能性があるということです。観察された共変量X_iについてCIAが成立するとしましょう。(9)の誤差項をX_iの線形結合と平均独立(mean independence)なv_i(つまりE[v_i|X_i]=0を満たす)に区別します。


e_i = X_i'γ + v_i\tag{10}

γE[e_i|X_i]=X_i'γを満たす回帰係数ベクトルです。
CIAの仮定を用いることで、潜在結果変数の条件付き期待値は以下のように表せます。


 E[f_i(s)|X_i,s_i] = E[f_i(s)|X_i] =α + ρs_i +E[e_i|X_i] =α + ρs_i +X_i'γ \tag{11}

これで誤差項v_iが説明変数s_i,X_iと独立しており、ρが検証したい因果効果を表す線形モデルを導出することができました。


Y_i = α  + ρs_i + X_i'γ + v_i\tag{12}


最後に重要な点ですが、(11)を導出するまでの一連の流れにおいては、X_iこそがe_is_i(同様にf_i(s)s_i)の相関を生んでいる、という仮定があることです。このX_iを明示的に回帰モデルに登場させることで、CIAの下X_iと独立な介入効果s_iが潜在変数Y_iに与える影響を「因果効果」として捉えることができるのです。セレクションバイアスもそもそも共変量X_iありきで発生する、と考えられます。

終わりに・感想

次回は適切な共変量X_iをモデルに含めないことで生じる欠落変数バイアス(omitted variable bias)を扱います。読んでいただきありがとうございました。

*1:本文ではロバート・フロストの詩「選ばれざる道(Road Not Taken)」が引用されています。めちゃくちゃ良かったです。