【Mostly Harmless Ch.3.3.1】回帰とマッチング

はじめに

共変量をコントロールするための操作としてのマッチングは、条件付き独立の仮定（CIA）によって正当化されます。Angrist(1998)は自発的な兵役参加が収入に与える影響を推定するためにマッチングを利用しました。

Angrist, Joshua, Estimating the Labor Market Impact of Voluntary Military Service Using Social Security Data on Military Applicants (July 1995). NBER Working Paper No. w5192. Available at SSRN: https://ssrn.com/abstract=225255

Angrist(1998)では、軍隊が兵士を選抜するために使用する個々の特性（年齢、学校、テストスコア）で条件付けた退役軍人ステータスの有無が潜在的な収入とは独立する、という条件付独立を仮定し、マッチングにより因果効果を推定しました。

回帰分析を用いて因果推論を行うときにもまた、条件付き独立の仮定（CIA）を用いています。言い換えれば、回帰とマッチングはどちらも共変量をコントロールするための操作です。回帰は、ある種の重み付きマッチング推定量を計算する道具です。したがって回帰とマッチングの違いは実証分析において主要な問題となる訳ではありません。

はじめに
２つの処置効果
回帰とマッチングにおける推定対象の違い
回帰とマッチングの推定量
欠損データによる共有サポートの不成立
参考文献

２つの処置効果

回帰とマッチングの推定対象（estimand）の数学的な違いから始めましょう。回帰分析の場合、推定対象は回帰係数ベクトルです。マッチングの場合、推定対象は共変量で定義された対比・比較群の加重平均値です。

共変量が離散（ダミー）の場合が理解しやすいため、退役軍人ダミー $D_i$ を考えましょう。年収の潜在結果は ${Y_{0i},Y_{1i}}$ です。退役軍人の平均年収 $E[Y_{1i}|D_i=1]$ 、これは観察可能なデータですがこれと彼が仮に従軍しなかった場合に平均して稼いでいたであろう*1年収 $E[Y_{0i}|D_i=0]$ の差です。

$D_i$ と $Y_{0i}$ が独立でない限り、セレクションバイアスが発生するため、退役軍人とそうではない人の年収の単純比較は因果推論にはなりません。ここでCIAにより、

$\begin{eqnarray} \{Y_{0i},Y_{1i}\} \bot D_i|X_i　\tag{1} \end{eqnarray}$

セレクションバイアスが消失するため、処置群への処置効果（Treatment on the Treated；TOT）は以下のように表されます。

$\begin{eqnarray} δ_{TOT}&=&E[Y_{1i}-Y_{0i}|D_i=1]\\ &=&E\{E[Y_{1i}-Y_{0i}|X_i,D_i=1]\} \\ &=&E[δ_X|D_i=1]　\tag{2} \end{eqnarray}$

ここでは

$\begin{eqnarray} δ_X = E[Y_i|X_i,D_i=1]-E[Y_i|X_i,D_i=0] \tag{3} \end{eqnarray}$

です。 $X_i=x_i$ のときは $δ_x$ と表します。

Angrist（1998）では、(2)の右辺の標本対応（sample analogue）を構成するため $X_i$ が離散変数である性質を用いて、マッチング推定量を作っています。離散変数の場合、マッチングの推定対象は、

$\begin{eqnarray} E[Y_{1i}-Y_{0i}|D_i=1]=\sum_{x}δ_{x}P(X_i=x_i|D_i=1) \tag{4} \end{eqnarray}$

と表せます。 $P(X_i=x_i|D_i=1)$ は $D_i$ を所与とした場合の $X_i$ の確率密度関数です。このとき $X_i$ の値は、誕生年、成績、志願年、学歴の変数の考えられるすべての組み合わせによって決定されます。

Angrist（1998）のマッチング推定量は、 $δ_x$ を共変量の各組み合わせにおける退役軍人とそうではない人の収益差で単純に置き換え、次に、退役軍軍人の共変量の確率分布を使用した加重平均でこれらを結合しています。

退役軍人における、条件なしの平均処置効果（Average Treatment Effect）は以下のように表すことができます。

$\begin{eqnarray} δ_{ATE} &=& E\{E[Y_{1i}|X_i,D_i=1]-E[Y_{0i}|X_i,D_i=0]\}\ \\ &=& \sum_{x}δ_{x}P(X_i=x_i) \\ &=& E[Y_{1i}-Y_{0i}] \tag{5} \end{eqnarray}$

これは $X_i$ の周辺分布を用いた $δ_X$ の期待値です。 $δ_{TOT}$ と $δ_{ATE}$ の違いは、 $δ_{TOT}$ が平均的な兵士（soldier）が従軍の結果いくら稼ぐのかを示すのに対し、 $δ_{ATE}$ は平均的な志願者（applicant）が従軍によりいくら稼ぐのかを示す、というものです。

回帰とマッチングにおける推定対象の違い

米軍は冷戦後その規模を縮小して以来、入隊のスクリーニングは公平に行うようになっています。入隊試験には高卒者の成績の上位半数のみが合格します。ここでは介入である入隊と、共変量である成績との間に正の相関があり、セレクションバイアスが発生していると考えられます。

Angrist(1998)では1979~1982年にかけて自発的に従軍した労働者において、従軍が1988~1991年の課税所得にどのように影響したかを検証した。これらの影響は平均値の差、マッチング推定量、回帰推定量がそれぞれ計算されました。マッチング推定量は(4)の標本対応です。

白人の退役軍人（ベテラン）は非ベテランよりも1,233ドル多く稼いでいましたが、共変量をコントロールするとその差分はかえって負になります。同様に、非白人のべテランは、非ベテランより2,449ドル多く稼いでいましたが、共変量をコントロールすると840ドルに減ってしまいます。

$δ_R$ の推定量は以下のモデルの推定により得られたものです。

$\begin{eqnarray} Y_i = \sum_{x}d_{ix}α_{x}+δ_{R}D_i+e_i \tag{6} \end{eqnarray}$

$d_{ix}$ は $X_i=x$ のとき1を示すダミー、 $δ_R$ は回帰の推定対象です。この回帰モデルでは共変量 $X_i$ によってパラメータは別の値を取りえます。したがってすべての $X_i$ 毎のパラメータを含む飽和モデルと呼ぶことができます（しかし $D_i$ と $X_i$ の交差項を含まないため完全な飽和モデルではありません）。

マッチングと回帰の推定値がどちらも同じコントロール変数を用いているのにかかわらず、白人/非白人のどちらもサンプルにおいても回帰の推定値の方がマッチングの推定値よりも大きくなっており、2つの推定値には統計的に有意な差があります。同時に、2つの識別の結果が示す従軍の効果（推定値の正負）は同じです。

回帰とマッチングの推定値が似ているのは、回帰がマッチング推定量の一種であり、回帰の推定対象とマッチングの推定対象の唯一の違いは共変量 $X_i$ の値毎の効果を平均するときに用いる重み（ウェイト）です。特にマッチングの推定値は処置を受けたサンプル（treated）の共変量の分布を使った処置効果の加重平均値を推定するのに対し、回帰はこれらの効果の分散の加重平均値を推定しているのです。

回帰とマッチングの推定量

回帰とマッチングの推定量の違いを式で説明します。Regression Anatomyを使って、(6)の推定量 $δ_{R}$ を表します。Regression AnatomyはFWL定理の記事で扱いました。

$\begin{eqnarray} δ_R &=& \frac{Cov(Y_i,\tilde{D_i})}{V(\tilde{D_i})} \\ &=& \frac{E[(D_i-E[D_i|X_i])Y_i]}{E[(D_i-E[D_i|X_i])^2]}　\\ &=& \frac{E\{(D_i-E[D_i|X_i])E[Y_i|D_i,X_i]\}}{E[(D_i-E[D_i|X_i])^2]} \tag{7} \end{eqnarray}$

2つ目の等号は、(6)が $X_i$ で飽和しているため $E[D_i|X_I]$ は線形という性質を用いています。したがって $D_i$ を $X_i$ に回帰した残差である $\tilde{D_i}$ は、 $D_i$ と $E[D_i|X_i]$ の差分です。3つ目の等号は、 $Y_i$ を $D_i,X_i$ に回帰することは、 $Y_i$ を $E[Y_i|D_i,X_i]$ に回帰するのと同じだという定理6（The Regression CEF Theorem）の性質を用いています。Regression CEF Theoremも過去の記事で扱いました。

単純化のためCEFを以下のように分解し、

$\begin{eqnarray} E[Y_i|D_i,X_i]=E[Y_i|D_i=0,X_i]+δ_{X}D_i \tag{8} \end{eqnarray}$

これを(7)の分子に代入すると、

$\begin{eqnarray} E[(D_i-E[D_i|X_i])E[Y_i|D_i,X_i] &=& E\{(D_i-E[D_i|X_i])E[Y_i,D_i=0,X_i]\}+E\{(D_i-E[D_i|X_i])D_{i}δ_{X}\} \\ &=& 0 + E\{(D_i-E[D_i|X_i])D_{i}δ_{X}\}\\ &=& E\{(D_i-E[D_i|X_i])^2δ_{X}\} \tag{9} \end{eqnarray}$

$E[Y_i|D_i,X_i]$ は $X_i$ の関数なので $D_i$ とは独立です。

(9)を(7)の分子に代入します。

$\begin{eqnarray} δ_R &=& \frac{E[(D_i-E[D_i|X_i])^2δ_{X}]}{E[(D_i-E[D_i|X_i])^2]} \\ &=& \frac{E\{E[(D_i-E[D_i|X_i])^2|X_i]δ_X\}}{E\{E[(D_i-E[D_i|X_i])^2|X_i]\}} \\ &=& \frac{E[σ_D^2(X_i)δ_X]}{E[σ_D^2(X_i)]} \tag{10} \end{eqnarray}$

$σ^2_D(X_i)$ は $X_i$ で条件付けた $D_i$ の分散です。

$\begin{eqnarray} σ_D^2(X_i) = E[(D_i-E[D_i|X_i])^2|X_i] \tag{11} \end{eqnarray}$

つまり(6)の回帰係数 $δ_R$ は $D_i$ の条件付き分散で重み付けられた $δ_X$ （平均処置効果；ATE）の平均値なのです。

我々の関心のある $D_i$ はダミー変数、つまり二項確率変数であるためその分散は $σ_D^2(X_i) = P(D_i=1|X_i)(1-P(D_i=1|X_i))$ です。したがって

$\begin{eqnarray} δ_R &=& \frac{\sum_x δ_x[P(D_i=1|X_i=x)(1-P(D_i=1|X_i=x))]P(X_i=x)}{\sum_x [P(D_i=1|X_i=x)(1-P(D_i=1|X_i=x))]P(X_i=x)} \tag{12} \end{eqnarray}$

(12)は、回帰の推定量は共変量毎の処置効果を $P(D_i=1|X_i)(1-P(D_i=1|X_i)$ で重み付けている、ことを示しています。一方、処置群への平均処置効果（TOT）を表すマッチング推定量は以下のように表すことができます。

$\begin{eqnarray} E[Y_{1i}-Y_{0i}|D_i=1] &=& \sum_x δ_x P(X_i=x|D_i=1)P(X_i=x) \\ &=& \frac{\sum_x δ_x P(D_i=1|X_i=x)P(X_i=x)}{\sum_x P(D_i=1|X_i=x)P(X_i=x)} \tag{13} \end{eqnarray}$

2つ目の等号は条件付き確率の法則を用いています。共変量の各値が想起する確率の比率によって、平均処置効果が重みづけられています。したがって回帰とマッチングの重みづけのアルゴリズムは、介入・処置が共変量と独立ではない限り別々のものなのです。

これらの導出の重要なポイントは、マッチング推定量である $δ_{TOT}$ は、処置を受ける可能性の高い人を含む共変量に最もウェイトを置く点です。対照的に、回帰は処置を受けた人のうち条件付き分散が最も大きくなる共変量に重点をおきます。条件付き分散は $P(D_i|X_i=x)=\frac{1}{2}$ のとき最大、言い換えれば処置群（treated）と対照群（control）のサンプルサイズが同等となるときです。 $δ_x$ がグループ間でさほど変わらない場合は重みづけの方法の違いに留意する必要はありません。

しかしながらAngrist(1998)の例では、入隊審査に合格する可能性の高い人ほど、入隊によって得られる恩恵は少ないのです。なぜなら合格可能性の高い人は、市井の仕事で稼げるポテンシャルが高く、軍隊に入ることによる追加的な恩恵は少なくなるためです。よって入隊の効果を示すマッチング推定量は、同じコントロール変数を使って導出した回帰推定量よりも小さくなってしまいます。

もう1点重要なポイントは、回帰とマッチング推定量は、処置群と対照群のどちらに含まれない共変量には重みも置かないという点です。共変量 $X_i$ がある特定の値 $x*$ において、サンプル全員が処置群となる状況を考えましょう。このとき $P(D_i=1|X_i=x*)=1$ となるため、回帰係数の重みである $P(D_i=1|X_i=x*)(1-P(D_i=1|X_i=x*))$ がゼロとなり $δ_{x*}$ は定義されません。

回帰、マッチングに共通するこの仮定を共有サポート（common support）と呼びます。この仮定は、処置群にも対照群にも同じ共変量を持つサンプルが存在するという仮定です。この仮定なしには処置群のマッチング対象を対照群に見つけることができません。

$\begin{eqnarray} 0 < P(D_i=1|X_i) <1 \tag{14} \end{eqnarray}$

欠損データによる共有サポートの不成立

推定対象（estimand）から推定量（estimator）への議論はやや複雑です。実際には、回帰とマッチングの推定量は、いずれもモデルの推定にあたり欠損データを補完するという暗黙の仮定の下実装されることが多いです。マッチング推定量は多くの場合、観測数の非常に少ない共変量を結合します。結合の対象になる共変量に処置群と対照群に該当する観測値がない場合、共有サポートが成立しません。 $X_i$ で飽和していない回帰モデルも共有サポートに反する可能性があります。欠損データの補完に関する留意点は、回帰とマッチングに共通するものです。