Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す

【Mostly Harmless Ch.3.3.1】回帰とマッチング

はじめに

共変量をコントロールするための操作としてのマッチングは、条件付き独立の仮定(CIA)によって正当化されます。Angrist(1998)は自発的な兵役参加が収入に与える影響を推定するためにマッチングを利用しました。

Angrist, Joshua, Estimating the Labor Market Impact of Voluntary Military Service Using Social Security Data on Military Applicants (July 1995). NBER Working Paper No. w5192. Available at SSRN: https://ssrn.com/abstract=225255

Angrist(1998)では、軍隊が兵士を選抜するために使用する個々の特性(年齢、学校、テストスコア)で条件付けた退役軍人ステータスの有無が潜在的な収入とは独立する、という条件付独立を仮定し、マッチングにより因果効果を推定しました。

回帰分析を用いて因果推論を行うときにもまた、条件付き独立の仮定(CIA)を用いています。言い換えれば、回帰とマッチングはどちらも共変量をコントロールするための操作です。回帰は、ある種の重み付きマッチング推定量を計算する道具です。したがって回帰とマッチングの違いは実証分析において主要な問題となる訳ではありません。

2つの処置効果

回帰とマッチングの推定対象(estimand)の数学的な違いから始めましょう。回帰分析の場合、推定対象は回帰係数ベクトルです。マッチングの場合、推定対象は共変量で定義された対比・比較群の加重平均値です。

共変量が離散(ダミー)の場合が理解しやすいため、退役軍人ダミーD_iを考えましょう。年収の潜在結果は{Y_{0i},Y_{1i}}です。退役軍人の平均年収E[Y_{1i}|D_i=1]、これは観察可能なデータですがこれと彼が仮に従軍しなかった場合に平均して稼いでいたであろう*1年収E[Y_{0i}|D_i=0]の差です。

D_iY_{0i}が独立でない限り、セレクションバイアスが発生するため、退役軍人とそうではない人の年収の単純比較は因果推論にはなりません。ここでCIAにより、



\begin{eqnarray}
\{Y_{0i},Y_{1i}\} \bot D_i|X_i \tag{1}
\end{eqnarray}


セレクションバイアスが消失するため、処置群への処置効果(Treatment on the Treated;TOT)は以下のように表されます。



\begin{eqnarray}
δ_{TOT}&=&E[Y_{1i}-Y_{0i}|D_i=1]\\
        &=&E\{E[Y_{1i}-Y_{0i}|X_i,D_i=1]\} \\
        &=&E[δ_X|D_i=1] \tag{2}
\end{eqnarray}


ここでは



\begin{eqnarray}
δ_X = E[Y_i|X_i,D_i=1]-E[Y_i|X_i,D_i=0] \tag{3}
\end{eqnarray}


です。X_i=x_iのときはδ_xと表します。

Angrist(1998)では、(2)の右辺の標本対応(sample analogue)を構成するためX_iが離散変数である性質を用いて、マッチング推定量を作っています。離散変数の場合、マッチングの推定対象は、



\begin{eqnarray}
E[Y_{1i}-Y_{0i}|D_i=1]=\sum_{x}δ_{x}P(X_i=x_i|D_i=1) \tag{4}
\end{eqnarray}


と表せます。P(X_i=x_i|D_i=1)D_iを所与とした場合のX_iの確率密度関数です。このときX_iの値は、誕生年、成績、志願年、学歴の変数の考えられるすべての組み合わせによって決定されます。

Angrist(1998)のマッチング推定量は、δ_xを共変量の各組み合わせにおける退役軍人とそうではない人の収益差で単純に置き換え、次に、退役軍軍人の共変量の確率分布を使用した加重平均でこれらを結合しています。

退役軍人における、条件なしの平均処置効果(Average Treatment Effect)は以下のように表すことができます。



\begin{eqnarray}
δ_{ATE} &=& E\{E[Y_{1i}|X_i,D_i=1]-E[Y_{0i}|X_i,D_i=0]\}\ \\
    &=& \sum_{x}δ_{x}P(X_i=x_i) \\
         &=& E[Y_{1i}-Y_{0i}] \tag{5}    
\end{eqnarray}


これはX_iの周辺分布を用いたδ_Xの期待値です。δ_{TOT}δ_{ATE}の違いは、δ_{TOT}が平均的な兵士(soldier)が従軍の結果いくら稼ぐのかを示すのに対し、δ_{ATE}は平均的な志願者(applicant)が従軍によりいくら稼ぐのかを示す、というものです。

回帰とマッチングにおける推定対象の違い

米軍は冷戦後その規模を縮小して以来、入隊のスクリーニングは公平に行うようになっています。入隊試験には高卒者の成績の上位半数のみが合格します。ここでは介入である入隊と、共変量である成績との間に正の相関があり、セレクションバイアスが発生していると考えられます。

Angrist(1998)では1979~1982年にかけて自発的に従軍した労働者において、従軍が1988~1991年の課税所得にどのように影響したかを検証した。これらの影響は平均値の差、マッチング推定量、回帰推定量がそれぞれ計算されました。マッチング推定量は(4)の標本対応です。

白人の退役軍人(ベテラン)は非ベテランよりも1,233ドル多く稼いでいましたが、共変量をコントロールするとその差分はかえって負になります。同様に、非白人のべテランは、非ベテランより2,449ドル多く稼いでいましたが、共変量をコントロールすると840ドルに減ってしまいます。

δ_Rの推定量は以下のモデルの推定により得られたものです。



\begin{eqnarray}
Y_i = \sum_{x}d_{ix}α_{x}+δ_{R}D_i+e_i \tag{6}
\end{eqnarray}


d_{ix}X_i=xのとき1を示すダミー、δ_Rは回帰の推定対象です。この回帰モデルでは共変量X_iによってパラメータは別の値を取りえます。したがってすべてのX_i毎のパラメータを含む飽和モデルと呼ぶことができます(しかしD_iX_iの交差項を含まないため完全な飽和モデルではありません)。

マッチングと回帰の推定値がどちらも同じコントロール変数を用いているのにかかわらず、白人/非白人のどちらもサンプルにおいても回帰の推定値の方がマッチングの推定値よりも大きくなっており、2つの推定値には統計的に有意な差があります。同時に、2つの識別の結果が示す従軍の効果(推定値の正負)は同じです。

回帰とマッチングの推定値が似ているのは、回帰がマッチング推定量の一種であり、回帰の推定対象とマッチングの推定対象の唯一の違いは共変量X_iの値毎の効果を平均するときに用いる重み(ウェイト)です。特にマッチングの推定値は処置を受けたサンプル(treated)の共変量の分布を使った処置効果の加重平均値を推定するのに対し、回帰はこれらの効果の分散の加重平均値を推定しているのです。

回帰とマッチングの推定量

回帰とマッチングの推定量の違いを式で説明します。Regression Anatomyを使って、(6)の推定量δ_{R}を表します。Regression AnatomyはFWL定理の記事で扱いました。



\begin{eqnarray}
δ_R &=& \frac{Cov(Y_i,\tilde{D_i})}{V(\tilde{D_i})} \\
 &=& \frac{E[(D_i-E[D_i|X_i])Y_i]}{E[(D_i-E[D_i|X_i])^2]} \\
   &=& \frac{E\{(D_i-E[D_i|X_i])E[Y_i|D_i,X_i]\}}{E[(D_i-E[D_i|X_i])^2]} \tag{7}
 \end{eqnarray}


2つ目の等号は、(6)がX_iで飽和しているためE[D_i|X_I]は線形という性質を用いています。したがってD_iX_iに回帰した残差である\tilde{D_i}は、D_iE[D_i|X_i]の差分です。3つ目の等号は、Y_iD_i,X_iに回帰することは、Y_iE[Y_i|D_i,X_i]に回帰するのと同じだという定理6(The Regression CEF Theorem)の性質を用いています。Regression CEF Theoremも過去の記事で扱いました。

単純化のためCEFを以下のように分解し、



\begin{eqnarray}
E[Y_i|D_i,X_i]=E[Y_i|D_i=0,X_i]+δ_{X}D_i \tag{8}
 \end{eqnarray}


これを(7)の分子に代入すると、



\begin{eqnarray}
E[(D_i-E[D_i|X_i])E[Y_i|D_i,X_i] &=& E\{(D_i-E[D_i|X_i])E[Y_i,D_i=0,X_i]\}+E\{(D_i-E[D_i|X_i])D_{i}δ_{X}\} \\
&=& 0 + E\{(D_i-E[D_i|X_i])D_{i}δ_{X}\}\\
&=& E\{(D_i-E[D_i|X_i])^2δ_{X}\} \tag{9}
 \end{eqnarray}


E[Y_i|D_i,X_i]X_iの関数なのでD_iとは独立です。

(9)を(7)の分子に代入します。


\begin{eqnarray}
δ_R &=& \frac{E[(D_i-E[D_i|X_i])^2δ_{X}]}{E[(D_i-E[D_i|X_i])^2]} \\
       &=& \frac{E\{E[(D_i-E[D_i|X_i])^2|X_i]δ_X\}}{E\{E[(D_i-E[D_i|X_i])^2|X_i]\}} \\
&=& \frac{E[σ_D^2(X_i)δ_X]}{E[σ_D^2(X_i)]} \tag{10}
 \end{eqnarray}


σ^2_D(X_i)X_iで条件付けたD_iの分散です。



\begin{eqnarray}
σ_D^2(X_i) = E[(D_i-E[D_i|X_i])^2|X_i] \tag{11}
 \end{eqnarray}


つまり(6)の回帰係数δ_RD_iの条件付き分散で重み付けられたδ_X(平均処置効果;ATE)の平均値なのです。

我々の関心のあるD_iはダミー変数、つまり二項確率変数であるためその分散はσ_D^2(X_i) = P(D_i=1|X_i)(1-P(D_i=1|X_i))です。したがって



\begin{eqnarray}
δ_R &=& \frac{\sum_x δ_x[P(D_i=1|X_i=x)(1-P(D_i=1|X_i=x))]P(X_i=x)}{\sum_x [P(D_i=1|X_i=x)(1-P(D_i=1|X_i=x))]P(X_i=x)} \tag{12}
 \end{eqnarray}

(12)は、回帰の推定量は共変量毎の処置効果をP(D_i=1|X_i)(1-P(D_i=1|X_i)で重み付けている、ことを示しています。一方、処置群への平均処置効果(TOT)を表すマッチング推定量は以下のように表すことができます。



\begin{eqnarray}
E[Y_{1i}-Y_{0i}|D_i=1] &=& \sum_x δ_x P(X_i=x|D_i=1)P(X_i=x) \\
&=& \frac{\sum_x δ_x P(D_i=1|X_i=x)P(X_i=x)}{\sum_x P(D_i=1|X_i=x)P(X_i=x)}  \tag{13}
 \end{eqnarray}


2つ目の等号は条件付き確率の法則を用いています。共変量の各値が想起する確率の比率によって、平均処置効果が重みづけられています。したがって回帰とマッチングの重みづけのアルゴリズムは、介入・処置が共変量と独立ではない限り別々のものなのです。

これらの導出の重要なポイントは、マッチング推定量であるδ_{TOT}は、処置を受ける可能性の高い人を含む共変量に最もウェイトを置く点です。対照的に、回帰は処置を受けた人のうち条件付き分散が最も大きくなる共変量に重点をおきます。条件付き分散はP(D_i|X_i=x)=\frac{1}{2}のとき最大、言い換えれば処置群(treated)と対照群(control)のサンプルサイズ が同等となるときです。δ_xがグループ間でさほど変わらない場合は重みづけの方法の違いに留意する必要はありません。

しかしながらAngrist(1998)の例では、入隊審査に合格する可能性の高い人ほど、入隊によって得られる恩恵は少ないのです。なぜなら合格可能性の高い人は、市井の仕事で稼げるポテンシャルが高く、軍隊に入ることによる追加的な恩恵は少なくなるためです。よって入隊の効果を示すマッチング推定量は、同じコントロール変数を使って導出した回帰推定量よりも小さくなってしまいます。

もう1点重要なポイントは、回帰とマッチング推定量は、処置群と対照群のどちらに含まれない共変量には重みも置かないという点です。共変量X_iがある特定の値x*において、サンプル全員が処置群となる状況を考えましょう。このときP(D_i=1|X_i=x*)=1となるため、回帰係数の重みであるP(D_i=1|X_i=x*)(1-P(D_i=1|X_i=x*))がゼロとなりδ_{x*}は定義されません。

回帰、マッチングに共通するこの仮定を共有サポート(common support)と呼びます。この仮定は、処置群にも対照群にも同じ共変量を持つサンプルが存在するという仮定です。この仮定なしには処置群のマッチング対象を対照群に見つけることができません。


\begin{eqnarray}
0 < P(D_i=1|X_i) <1  \tag{14}
 \end{eqnarray}

欠損データによる共有サポートの不成立

推定対象(estimand)から推定量(estimator)への議論はやや複雑です。実際には、回帰とマッチングの推定量は、いずれもモデルの推定にあたり欠損データを補完するという暗黙の仮定の下実装されることが多いです。マッチング推定量は多くの場合、観測数の非常に少ない共変量を結合します。結合の対象になる共変量に処置群と対照群に該当する観測値がない場合、共有サポートが成立しません。X_iで飽和していない回帰モデルも共有サポートに反する可能性があります。欠損データの補完に関する留意点は、回帰とマッチングに共通するものです。

参考文献

傾向スコアマッチング、特に共有サポートの箇所はカリフォルニア大学ロサンゼルス校Assistant Professorの津川友介先生のブログが大変参考になりました。
healthpolicyhealthecon.com

*1:反実仮想(counter factual)と呼ばれます。