Goodな生活

INTPの好奇心の受け皿

【Mostly Harmless Ch.3.2.3】良くないコントロール変数

はじめに

この記事では良くないコントロール変数(Bad control)について扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.2.3"Bad Control"を参考にしています。

前回の記事では、必要なコントロール変数をモデルに含まずに推定することで発生する欠落変数バイアス(Omitted Variable Bias)を説明しました。しかし、たくさんのコントロール変数を含めることが常に正しいとは限りません。中には回帰モデルに含めるべきではない変数もあります。

コントロール変数の良し悪しを判断する重要なポイントが、変数が観察(決定)されるタイミングです。良くないコントロール変数とは、介入・処置の事後に決定される(すなわち介入・処置と相関の考えられる)変数です。一方、良いコントロール変数とは、従属変数よりも前に決定される(介入・処置と相関する可能性が低い)変数です。

良くないコントロール変数~これもセレクションバイアス?

良くないコントロール変数の引き起こす問題は、セレクションバイアスの一種です。例として賃金がどのような要因によって上下するのかを考えましょう。ここでは教育年数に加え、職種(ホワイトカラーとブルーカラー)という説明変数も考えることにします。一般的には教育年数が伸びる(例えば大学を卒業する)とホワイトカラーの職種に就きやすいと考えられます。回帰モデルに教育年数と職種ダミーを同時に含めることに問題はないでしょうか。職種ダミーを除外すると欠落変数バイアスが生じるのでしょうか。

つまるところ、職種は教育年数と賃金の両方と相関すると考えられます。ならばサンプルをホワイトカラーの職種に限定した上で、教育年数が賃金に与える効果を検証する、という方法が望ましく思えます。ところが教育年数が職種に影響する場合、同職種における教育年数による賃金上昇の効果は、もはや因果効果ではないのです。これは仮に教育年数(学位)がランダムに割り振られていても同様です。

この問題を定式化しましょう。C_i1のとき大卒を表すダミー、W_i1のときホワイトカラー状態を表す職種ダミーです。\{Y_{1i},Y_{0i}\}\{W_{1i},W_{0i}\}はそれぞれ賃金、ホワイトカラーの潜在結果です。前者は連続変数ですが後者は離散変数です。我々の観察する賃金、職種の観察データは大卒ダミーとこれらの潜在変数によって表すことができます。


Y_i = C_{i}Y_{1i}+(1-C_i)Y_{0i}\tag{1}
W_i = C_{i}W_{1i}+(1-C_i)W_{0i}\tag{2}


ここでC_iがランダムに割り振られる、つまり潜在変数と独立だと仮定します。この独立性の仮定のおかげで、大卒C_iが賃金Y_i、職種W_iに与える因果効果を推定できます。(3),(4)の右辺は平均処置効果(Average Treatment Effect;ATE)と呼ばれ、Y_iW_iをそれぞれC_iに回帰することで推定できます。


E[Y_i|C_i=1]-E[Y_i|C_i=0]=E[Y_{1i}-Y_{0i}]\tag{3}
E[W_i|C_i=1]-E[W_i|C_i=0]=E[W_{1i}-W_{0i}]\tag{4}


C_iの条件付き賃金の比較で因果効果を推定することができますが、W_iの条件付き賃金の比較は因果推論にはなりません。サンプルをホワイトカラー職種で条件づけた上で、大卒者と非大卒者の平均賃金の違いを比べてみましょう。これは回帰モデルにW_iを含める、もしくはサンプルをW_i=1に限定した上でY_iC_iに回帰させることで計算できます。後者の推定対象(estimand)は、



E[Y_i|W_i =1,C_i=1]-E[Y_i|W_i=1,C_i=0] = 
E[Y_{1i}|W_{1i}=1,C_i=1]-E[Y_{0i}|W_{0i}=1,C_i=0]
\tag{5}

\{Y_{1i},W_{1i},Y_{0i},W_{0i}\}\{C_i\}は同時独立であるため、



\begin{eqnarray}
E[Y_{1i}|W_{1i} =1,C_i=1]-E[Y_{0i}|W_{0i}=1,C_i=0] &=& E[Y_{1i}|W_{1i}=1]-E[Y_{0i}|W_{0i}=1] \\
\end{eqnarray}
\tag{6}

さらに(6)の右辺第1項を分解すると、



E[Y_{1i}|W_{1i} =1]-E[Y_{0i}|W_{0i}=1] = 
\underbrace{E[Y_{1i}-Y_{0i}|W_{1i}=1]}_{Causal\,Effect\,of\,Courage\,Grads}+\underbrace{\{E[Y_{0i}|W_{1i}=1]-E[Y_{0i}|W_{0i}=1]\}}_{Selection\, Bias}
\tag{7}

ホワイトカラー職種の労働者における大学卒業によって賃金が上がった因果効果(Causal Effect of Courage Graduates)*1と、そもそも大卒有無が職種の構成員を変えてしまうというセレクションバイアスの部分に区分されます。

表を書いてみましょう。(7)の左辺は下表の①-③に相当します。これを①-②(ホワイトカラー職種の人が大学に行った場合と行かなかった場合の年収の差)の因果効果と、②-③(大卒でホワイトカラーの人も非大卒でホワイトカラーの人もみんな大学に行かなかった場合の年収の差)のセレクションバイアスに区別します。

大卒の場合の賃金(Y_{1i} 非大卒の場合の賃金(Y_{0i}
大卒の場合のホワイトカラー職種(W_{1i}=1 E[Y_{1i}\,\, if \,\,W_{1i}=1] E[Y_{0i} \,\, if \,\, W_{1i}=1]
非大卒の場合のホワイトカラー職種(W_{0i}=1 E[Y_{0i}\,\, if \,\,W_{0i}=1]


②-③のセレクションバイアスは、職業選択、大学進学選択、潜在的な賃金の関係によって正にも負にもなりえますが、この例では負になりそうです。なぜなら大学を出た多くの人がホワイトカラーの職に就くのに対し、大学を出ずにホワイトカラーの職に就く人は元々個人の能力が優れている、つまり②<③だと考えらえるためです。

重要なのは、例えY_{1i}=Y_{0i}の場合、大学進学によって潜在的な賃金が変わらないとしても、大学進学によって職種が変わりうる以上セレクションバイアスはなくならない、という点です。

代理変数を使ったコントロール

良くないコントロール変数のもう一つの例が代理変数を使ったコントロール(proxy-control)です。これは欠落変数をコントロールするためにモデルに含めた変数自体が、推定対象である介入・処置変数(treatment variable)に影響を受ける問題です。引き続き、教育年数(大学進学)S_iが賃金Y_iに与える影響を考えましょう。


Y_i = α+ ρS_i + γa_i + ε_i\tag{8}


a_iは個人の能力を表す変数です。大学進学より前に決定される変数、高校生時の成績だとしましょう。誤差項はE[S_iε_i]=E[a_iε_i]=0を満たすと仮定します。a_iS_iよりも前に決定されるので、良いコントロール変数と言えます。

しかしモデルの推定に必要な高校生時のa_iはデータは取得できず、代わりに大学卒業後の成績*2データしか集められなかったとしましょう。この変数を後天的能力(late ability)a_{li}と呼びます。一般的には先天的な能力や教育年数は後天的能力と正の相関がありそうです。


a_{li}=π_0 + π_{1}S_{i}+π_{2}a_{i} \tag{9}


(8)のa_iの代わりに(9)*3の後天的能力a_{li}を代入すると、


Y_i = (α-γ\frac{π_0}{π_2})+(ρ-γ\frac{π_1}{π_2})S_i + \frac{γ}{π_2}a_{li}+ε_i\tag{10}


γ,π_1,π_2は正なので(ρ-γ\frac{π_1}{π_2})ρより小さくなります。(9)のπ_1の推定値がゼロでない限り、後天的能力a_{li}をコントロール変数として使うことで、本来の推定したかったρを過少評価することになってしまうのです。

でもコントロールしないよりはマシ?

以上良くないコントロール変数の2つのパターンを説明しました。影響の方向は違えど、どちらも介入・処置変数と共変量が相関することが問題だと言えます。

最後に、ファーストベストなデータではないコントロール変数をモデルに含めるべきか否かを考えましょう。

仮に(8)に能力a_iを含めずに推定すると、欠落変数バイアスが生じるため、推定値はρ+δ_{as}となります。δ_{as}a_iS_iに回帰した回帰係数ベクトルです。他方、先ほどの代理変数を用いた推定値はρ-γ\frac{π_1}{π_2}でした。π_1が十分に小さければ、代理コントロールを用いた推計結果の方が真のρに近しい値となるでしょう。この場合は代理コントロールであってもモデルに含めた方が精度の良い推定値を得られます。

またa_iS_iに正の相関があるとき、つまりδ_{as}が正の場合、真のρは代理コントロールを含めた推定値と、コントロール変数を含めない欠落変数バイアスを伴う推定値の間に位置すると考えることもできるのです。


 ρ-γ\frac{π_1}{π_2} < ρ < ρ +δ_{as}\tag{11}


繰り返しになりますが、コントロール変数の良い・悪いは変数の決定されるタイミングの問題です。とは言ってもタイミングなんてものは不確実な場合が多いです。我々がコントロール変数を用いるときに注意すべきは、共変量X_iと介入変数S_i、従属変数Y_iに関する因果経路(causal channels)(つまり何が最初に起き、その結果何が引き起こされるのか)に関して明確な仮定を記述することです。

終わりに・感想

比較的読みやすい節でした。1つ目の例は共変量(職種)が介入・処置変数(教育変数)に影響を与える、2つ目の例は介入・処置(教育年数)が共変量(成績)に影響を与える、という説明変数間の相関の問題とも捉えられると思います。

コントロール変数の選択方法は何かセオリーがあるというよりも、データの利用可能性や先行研究で用いられている変数等を参考にしながら相場が決まってくるのだと思います。読んでいただいてありがとうございました。

*1:処置群における平均処置効果(Average Treatment Effect on the Treated;ATT)と同じです。

*2:就活で使うSPI試験の点数のようなものでしょうか

*3:推計する場合は誤差項を右辺に含みますが、(9)は決定論的な(deterministic)モデルを仮定しています