【Mostly Harmless Ch.3.2.1】条件付き独立の仮定

はじめに

この記事では、共変量 $X_i$ を所与とし、介入効果 $C_i$ と結果変数 $Y_i$ とが無関係であるという条件付き独立の仮定（Conditional Independence Assumption；CIA）を扱います。

内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly harmless econometrics』Ch.3.2.1"The Conditional Independence Assumption"を参考にしています。

はじめに
条件付き独立の仮定とは？
回帰分析で因果推論ができる条件
終わりに・感想
参考文献

条件付き独立の仮定とは？

観察されたデータを元に因果推論を行うとき、潜在結果（potential outcome）という概念を用います。我々は大学進学が将来の年収に与える影響について関心があるとしましょう。

${ Potential\,Outcome=\left\{ \begin{array}{ll} Y_{1i} & if &\, C_i = 1 \\ Y_{0i} & if &\, C_i=0 \\ \tag{1} \end{array} \right. }$

大学に進学するなら $C_i=1$ 、進学しないなら $C_i=0$ です。 $Y_{1i}$ は大学に行った場合の年収、 $Y_{0i}$ は行かなかった場合の年収です。ここで $Y_{1i}$ と $Y_{0i}$ の差は「同じ $i$ さんが大学に行った場合と行かなかった場合の年収の差」なので因果効果（causal effect）を表します。実際に観察したデータである年収 $Y_i$ を、この因果効果を使って表してみましょう。

${ Y_i = Y_{0i} + (Y_{1i} - Y_{0i})C_i \tag{2} }$

ここで重要なのは、我々は $Y_{1i}$ と $Y_{0i}$ のどちらか一方しか観察できないということです。同じ $i$ さんは大学に行く・行かないの両方を選択できません*1。潜在結果とは、潜在的に $Y_{1i},Y_{0i}$ が存在しますが、 $C_i$ の取りうる値によって実現する値（つまり我々が観察できる値） $Y_i$ が異なる、という意味です。

因果関係を検証したい、けれど $Y_{1i}$ と $Y_{0i}$ の片方しか観察できない。ならば同じ個人 $i$ さんではなく、すべての人を対象にして「すべての人が大学に行った場合の平均年収とすべての人が大学に行かなかった場合の平均年収の差」もしくは「大学に行った人グループにおける平均的な因果効果」つまり $E[Y_{1i}-Y_{0i}|C_i=1]$ を代わりに見ることで因果関係を検証しよう、という発想に至る訳です。

一般的には、大学に行ったグループと行かなかったグループの平均的な年収を比較しても、因果関係は分かりませんし、直観的には「当然大卒者の方が年収は高いだろう」とも考えれます。この場合、正のセレクションバイアスが発生していることになります。つまり「元々高い年収を得る素質や特徴を持つ人が大学に進学する」というバイアスが存在するため、大学に行った人と大学に行かなかった人の平均年収を比べても、因果効果を観察することにはならないのです。

${ \begin{eqnarray} \underbrace{E[Y_i|C_i = 1] - E[Y_i |C_i =0]}_{Observed\,difference\,in\,earnings} &=& \underbrace{E[Y_{1i}-Y_{0i}|C_i =1]}_{Average\,treatment\, effect\,on\,the\,treated} +\underbrace{E[Y_{0i}|C_i = 1] - E[Y_{0i}|C_i =0]}_{Selection\, bias} \\ \tag{3} \end{eqnarray} }$

前置きが長くなってしまいましたが、このセレクションバイアスに対処するための仮定が、条件付き独立の仮定（Conditional Independence Assupmtion; CIA）です。

${ \begin{eqnarray} \{Y_{0i},Y_{1i}\} \bot C_i | X_i \tag{4} \end{eqnarray} }$

CIAは、年収に影響を与える素質や特徴などの共変量 $X_i$ を所与（条件）として、結果変数 $\{Y_{0i},Y_{1i}\}$ と介入効果 $C_i$ が独立であることをサポートします。

(3)の両辺を共変量 $X_i$ で条件付けてみましょう。

${ \begin{eqnarray} E[Y_i|X_i,C_i = 1] - E[Y_i |X_i,C_i =0] &=& E[Y_{1i}-Y_{0i}|X_i] \\ \tag{5} \end{eqnarray} }$

(3)の第3項のセレクションバイアスがなくなり、因果効果を求める式となりました。ただし(5)は $X_i$ によって因果効果の値が異なります。共変量 $X_i$ を $i$ さんの家族の年収だとすると、元々実家が裕福な人が大学に行った場合の年収に与える効果は○○、元々実家が貧乏な人の効果は××と、共変量次第で因果効果の大きさが変わってしまうため、一般的にどれくらい効果があるのかが分かりません。そこで因果効果を表す包括的な1つの指標を考えます。(5)に繰り返し期待値の法則をあてはめてみましょう。

${ \begin{eqnarray} E\{ E[Y_i|X_i,C_i = 1] - E[Y_i |X_i,C_i =0]\} &=& E[Y_{1i}-Y_{0i}] \\ \tag{6} \end{eqnarray} }$

これを母集団の条件なしの平均因果効果（unconditional average causal effect）と呼びます。同様に、大学に行ったグループの平均的な因果効果は、

${ \begin{eqnarray} E\{ E[Y_i|X_i,C_i = 1] - E[Y_i |X_i,C_i =0]|C_i=1\} &=& E[Y_{1i}-Y_{0i}|C_i=1] \\ \tag{7} \end{eqnarray} }$

となり、これは大学に行った人において、大卒が年収に与えた平均的な効果を表します。(6)は $X_i$ の周辺分布を用いて、すべての $X_i$ による効果の平均をとることで求められます。同様に(7)は大学に行ったグループにおける $X_i$ の周辺分布を使い、同じく $X_i$ による効果の平均をとることで求まります。

これらの変数はどちらも実証分析上、マッチング推計量（matching estimator）と呼びます。マッチングの話題は別の節で扱います。簡単に言うと、大学進学という選択以外は同じような $X_i$ を持つ $i$ さんたちのグループを2つ作り、それら別々の $i$ さん同士をマッチングさせ、平均的な年収の違いを比較する、という考え方です。

ここまで介入効果を、大学進学の有無 $C_i = 0,1$ の例を使って説明しましたが、二項変数である必要はありません。例えば教育年数を $s_i = 1,2,\cdots$ とし、教育年数の違いが年収に与える影響についても同様に考えることができます。このとき潜在結果変数を $Y_{si}=f_i(s_i)$ と定義し、(6)、(7)式と同じように因果効果を表すことができます。例えば高卒と大卒の違いが収入に与える影響を考えましょう。小学校から数えると高卒までの教育年数は $s=12$ 、大卒までは $s=16$ ですね。条件なしの平均因果効果、大卒グループの平均因果効果はそれぞれ次のように表すことができます。

${ \begin{eqnarray} E\{ E[Y_i|X_i,s_i = 16] - E[Y_i |X_i,s_i =12]\} &=& E\{E[f_{i}(16)-f_{i}(12)|X_i]\} \\ &=&E[f_{i}(16)-f_{i}(12)] \\ \tag{6*} \\ \\ E\{ E[Y_i|X_i,s_i = 16] - E[Y_i |X_i,s_i =0]|s_i=12\} &=& E\{E[f_{i}(16)-f_{i}(12)|s_i=16]\} \\ &=& E[f_{i}(16)-f_{i}(12)|s_i=16] \tag{7*} \end{eqnarray} }$

回帰分析で因果推論ができる条件

条件付き独立の仮定（CIA）が成立することにより、回帰分析を用いて因果推論を行うことが可能になります。この「CIA→回帰分析→因果推論」のつながりについて、以下2通りの考え方を紹介します。ここからは潜在結果 $f_{i}(s)$ を使って考えましょう。

まずは $f_{i}(s)$ が線形かつすべての $i$ さんにとって関数形が同じ、というケースです。このとき線形回帰は $f_{i}(s)$ を推定するモデルそのものになりますね。ですが現実に即すとこの仮定は厳しいものです。個々人にとって $f_{i}(s)$ の形は異なるでしょうし、ましてや一律線形とも考えにくいです。なのでもう1つは、 $i$ さんによって $f_{i}(s)$ の形は異なり、非線形な $f_i(s)$ も認めるケースです。このとき回帰分析は個々人の教育年数による年収の違い、 $f_i(s)-f_i(s-1)$ の重みづけ平均の推定値を導出することになります。

まずは1ケース目を考えましょう。

$f_i(s) = α + ρs + e_i \tag{8}$

(7)は線形な因果モデルです。右辺の $s$ には $i$ が含まれていません。何を言いたいかと言うと、(8)では実際に $i$ さんが受けた教育年数 $s_i$ についての情報は含んでおらず、 $f_(s)$ は仮に $s$ 年の教育を受けた場合はどれぐらい稼ぐのかを表しています。観察されたデータ $s_i$ を(7)に代入してみましょう。

$Y_i = α + ρs_i + e_i\tag{9}$

左辺も観察された年収（実現値）となっております。ここで重要なのが $s_i$ は潜在結果変数 $f_i(s)$ や誤差項の $e_i$ とも相関している可能性があるということです。観察された共変量 $X_i$ についてCIAが成立するとしましょう。(9)の誤差項を $X_i$ の線形結合と平均独立（mean independence）な $v_i$ （つまり $E[v_i|X_i]=0$ を満たす）に区別します。

$e_i = X_i'γ + v_i\tag{10}$

$γ$ は $E[e_i|X_i]=X_i'γ$ を満たす回帰係数ベクトルです。
CIAの仮定を用いることで、潜在結果変数の条件付き期待値は以下のように表せます。

$E[f_i(s)|X_i,s_i] = E[f_i(s)|X_i] =α + ρs_i +E[e_i|X_i] =α + ρs_i +X_i'γ \tag{11}$

これで誤差項 $v_i$ が説明変数 $s_i,X_i$ と独立しており、 $ρ$ が検証したい因果効果を表す線形モデルを導出することができました。

$Y_i = α + ρs_i + X_i'γ + v_i\tag{12}$

最後に重要な点ですが、(11)を導出するまでの一連の流れにおいては、 $X_i$ こそが $e_i$ と $s_i$ （同様に $f_i(s)$ と $s_i$ ）の相関を生んでいる、という仮定があることです。この $X_i$ を明示的に回帰モデルに登場させることで、CIAの下 $X_i$ と独立な介入効果 $s_i$ が潜在変数 $Y_i$ に与える影響を「因果効果」として捉えることができるのです。セレクションバイアスもそもそも共変量 $X_i$ ありきで発生する、と考えられます。