【Mostly Harmless Ch.3.2.3】良くないコントロール変数

はじめに

この記事では良くないコントロール変数（Bad control）について扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.2.3"Bad Control"を参考にしています。

前回の記事では、必要なコントロール変数をモデルに含まずに推定することで発生する欠落変数バイアス（Omitted Variable Bias）を説明しました。しかし、たくさんのコントロール変数を含めることが常に正しいとは限りません。中には回帰モデルに含めるべきではない変数もあります。

コントロール変数の良し悪しを判断する重要なポイントが、変数が観察（決定）されるタイミングです。良くないコントロール変数とは、介入・処置の事後に決定される（すなわち介入・処置と相関の考えられる）変数です。一方、良いコントロール変数とは、従属変数よりも前に決定される（介入・処置と相関する可能性が低い）変数です。

はじめに
良くないコントロール変数～これもセレクションバイアス？
代理変数を使ったコントロール
でもコントロールしないよりはマシ？
終わりに・感想
参考文献

良くないコントロール変数～これもセレクションバイアス？

良くないコントロール変数の引き起こす問題は、セレクションバイアスの一種です。例として賃金がどのような要因によって上下するのかを考えましょう。ここでは教育年数に加え、職種（ホワイトカラーとブルーカラー）という説明変数も考えることにします。一般的には教育年数が伸びる（例えば大学を卒業する）とホワイトカラーの職種に就きやすいと考えられます。回帰モデルに教育年数と職種ダミーを同時に含めることに問題はないでしょうか。職種ダミーを除外すると欠落変数バイアスが生じるのでしょうか。

つまるところ、職種は教育年数と賃金の両方と相関すると考えられます。ならばサンプルをホワイトカラーの職種に限定した上で、教育年数が賃金に与える効果を検証する、という方法が望ましく思えます。ところが教育年数が職種に影響する場合、同職種における教育年数による賃金上昇の効果は、もはや因果効果ではないのです。これは仮に教育年数（学位）がランダムに割り振られていても同様です。

この問題を定式化しましょう。 $C_i$ は $1$ のとき大卒を表すダミー、 $W_i$ は $1$ のときホワイトカラー状態を表す職種ダミーです。 $\{Y_{1i},Y_{0i}\}$ 、 $\{W_{1i},W_{0i}\}$ はそれぞれ賃金、ホワイトカラーの潜在結果です。前者は連続変数ですが後者は離散変数です。我々の観察する賃金、職種の観察データは大卒ダミーとこれらの潜在変数によって表すことができます。

$Y_i = C_{i}Y_{1i}+(1-C_i)Y_{0i}\tag{1}$
$W_i = C_{i}W_{1i}+(1-C_i)W_{0i}\tag{2}$

ここで $C_i$ がランダムに割り振られる、つまり潜在変数と独立だと仮定します。この独立性の仮定のおかげで、大卒 $C_i$ が賃金 $Y_i$ 、職種 $W_i$ に与える因果効果を推定できます。(3),(4)の右辺は平均処置効果（Average Treatment Effect；ATE）と呼ばれ、 $Y_i$ と $W_i$ をそれぞれ $C_i$ に回帰することで推定できます。

$E[Y_i|C_i=1]-E[Y_i|C_i=0]=E[Y_{1i}-Y_{0i}]\tag{3}$
$E[W_i|C_i=1]-E[W_i|C_i=0]=E[W_{1i}-W_{0i}]\tag{4}$

$C_i$ の条件付き賃金の比較で因果効果を推定することができますが、 $W_i$ の条件付き賃金の比較は因果推論にはなりません。サンプルをホワイトカラー職種で条件づけた上で、大卒者と非大卒者の平均賃金の違いを比べてみましょう。これは回帰モデルに $W_i$ を含める、もしくはサンプルを $W_i=1$ に限定した上で $Y_i$ を $C_i$ に回帰させることで計算できます。後者の推定対象（estimand）は、

$E[Y_i|W_i =1,C_i=1]-E[Y_i|W_i=1,C_i=0] = E[Y_{1i}|W_{1i}=1,C_i=1]-E[Y_{0i}|W_{0i}=1,C_i=0] \tag{5}$

$\{Y_{1i},W_{1i},Y_{0i},W_{0i}\}$ と $\{C_i\}$ は同時独立であるため、

$\begin{eqnarray} E[Y_{1i}|W_{1i} =1,C_i=1]-E[Y_{0i}|W_{0i}=1,C_i=0] &=& E[Y_{1i}|W_{1i}=1]-E[Y_{0i}|W_{0i}=1] \\ \end{eqnarray} \tag{6}$

さらに(6)の右辺第1項を分解すると、

$E[Y_{1i}|W_{1i} =1]-E[Y_{0i}|W_{0i}=1] = \underbrace{E[Y_{1i}-Y_{0i}|W_{1i}=1]}_{Causal\,Effect\,of\,Courage\,Grads}+\underbrace{\{E[Y_{0i}|W_{1i}=1]-E[Y_{0i}|W_{0i}=1]\}}_{Selection\, Bias} \tag{7}$

ホワイトカラー職種の労働者における大学卒業によって賃金が上がった因果効果（Causal Effect of Courage Graduates）*1と、そもそも大卒有無が職種の構成員を変えてしまうというセレクションバイアスの部分に区分されます。

表を書いてみましょう。(7)の左辺は下表の① $-$ ③に相当します。これを① $-$ ②（ホワイトカラー職種の人が大学に行った場合と行かなかった場合の年収の差）の因果効果と、② $-$ ③（大卒でホワイトカラーの人も非大卒でホワイトカラーの人もみんな大学に行かなかった場合の年収の差）のセレクションバイアスに区別します。

	大卒の場合の賃金（ $Y_{1i}$ ）	非大卒の場合の賃金（ $Y_{0i}$ ）
大卒の場合のホワイトカラー職種（ $W_{1i}=1$ ）	① $E[Y_{1i}\,\, if \,\,W_{1i}=1]$	② $E[Y_{0i} \,\, if \,\, W_{1i}=1]$
非大卒の場合のホワイトカラー職種（ $W_{0i}=1$ ）		③ $E[Y_{0i}\,\, if \,\,W_{0i}=1]$

②-③のセレクションバイアスは、職業選択、大学進学選択、潜在的な賃金の関係によって正にも負にもなりえますが、この例では負になりそうです。なぜなら大学を出た多くの人がホワイトカラーの職に就くのに対し、大学を出ずにホワイトカラーの職に就く人は元々個人の能力が優れている、つまり② $<$ ③だと考えらえるためです。

重要なのは、例え $Y_{1i}=Y_{0i}$ の場合、大学進学によって潜在的な賃金が変わらないとしても、大学進学によって職種が変わりうる以上セレクションバイアスはなくならない、という点です。

代理変数を使ったコントロール

良くないコントロール変数のもう一つの例が代理変数を使ったコントロール（proxy-control）です。これは欠落変数をコントロールするためにモデルに含めた変数自体が、推定対象である介入・処置変数（treatment variable）に影響を受ける問題です。引き続き、教育年数（大学進学） $S_i$ が賃金 $Y_i$ に与える影響を考えましょう。

$Y_i = α+ ρS_i + γa_i + ε_i\tag{8}$

$a_i$ は個人の能力を表す変数です。大学進学より前に決定される変数、高校生時の成績だとしましょう。誤差項は $E[S_iε_i]=E[a_iε_i]=0$ を満たすと仮定します。 $a_i$ は $S_i$ よりも前に決定されるので、良いコントロール変数と言えます。

しかしモデルの推定に必要な高校生時の $a_i$ はデータは取得できず、代わりに大学卒業後の成績*2データしか集められなかったとしましょう。この変数を後天的能力（late ability） $a_{li}$ と呼びます。一般的には先天的な能力や教育年数は後天的能力と正の相関がありそうです。

$a_{li}=π_0 + π_{1}S_{i}+π_{2}a_{i} \tag{9}$

(8)の $a_i$ の代わりに(9)*3の後天的能力 $a_{li}$ を代入すると、

$Y_i = (α-γ\frac{π_0}{π_2})＋(ρ-γ\frac{π_1}{π_2})S_i + \frac{γ}{π_2}a_{li}+ε_i\tag{10}$

$γ,π_1,π_2$ は正なので $(ρ-γ\frac{π_1}{π_2})$ は $ρ$ より小さくなります。(9)の $π_1$ の推定値がゼロでない限り、後天的能力 $a_{li}$ をコントロール変数として使うことで、本来の推定したかった $ρ$ を過少評価することになってしまうのです。

でもコントロールしないよりはマシ？

以上良くないコントロール変数の2つのパターンを説明しました。影響の方向は違えど、どちらも介入・処置変数と共変量が相関することが問題だと言えます。

最後に、ファーストベストなデータではないコントロール変数をモデルに含めるべきか否かを考えましょう。

仮に(8)に能力 $a_i$ を含めずに推定すると、欠落変数バイアスが生じるため、推定値は $ρ+δ_{as}$ となります。 $δ_{as}$ は $a_i$ を $S_i$ に回帰した回帰係数ベクトルです。他方、先ほどの代理変数を用いた推定値は $ρ-γ\frac{π_1}{π_2}$ でした。 $π_1$ が十分に小さければ、代理コントロールを用いた推計結果の方が真の $ρ$ に近しい値となるでしょう。この場合は代理コントロールであってもモデルに含めた方が精度の良い推定値を得られます。

また $a_i$ を $S_i$ に正の相関があるとき、つまり $δ_{as}$ が正の場合、真の $ρ$ は代理コントロールを含めた推定値と、コントロール変数を含めない欠落変数バイアスを伴う推定値の間に位置すると考えることもできるのです。

$ρ-γ\frac{π_1}{π_2} < ρ < ρ +δ_{as}\tag{11}$

繰り返しになりますが、コントロール変数の良い・悪いは変数の決定されるタイミングの問題です。とは言ってもタイミングなんてものは不確実な場合が多いです。我々がコントロール変数を用いるときに注意すべきは、共変量 $X_i$ と介入変数 $S_i$ 、従属変数 $Y_i$ に関する因果経路（causal channels）（つまり何が最初に起き、その結果何が引き起こされるのか）に関して明確な仮定を記述することです。