はじめに
この記事では良くないコントロール変数(Bad control)について扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.2.3"Bad Control"を参考にしています。
前回の記事では、必要なコントロール変数をモデルに含まずに推定することで発生する欠落変数バイアス(Omitted Variable Bias)を説明しました。しかし、たくさんのコントロール変数を含めることが常に正しいとは限りません。中には回帰モデルに含めるべきではない変数もあります。
コントロール変数の良し悪しを判断する重要なポイントが、変数が観察(決定)されるタイミングです。良くないコントロール変数とは、介入・処置の事後に決定される(すなわち介入・処置と相関の考えられる)変数です。一方、良いコントロール変数とは、従属変数よりも前に決定される(介入・処置と相関する可能性が低い)変数です。
良くないコントロール変数~これもセレクションバイアス?
良くないコントロール変数の引き起こす問題は、セレクションバイアスの一種です。例として賃金がどのような要因によって上下するのかを考えましょう。ここでは教育年数に加え、職種(ホワイトカラーとブルーカラー)という説明変数も考えることにします。一般的には教育年数が伸びる(例えば大学を卒業する)とホワイトカラーの職種に就きやすいと考えられます。回帰モデルに教育年数と職種ダミーを同時に含めることに問題はないでしょうか。職種ダミーを除外すると欠落変数バイアスが生じるのでしょうか。
つまるところ、職種は教育年数と賃金の両方と相関すると考えられます。ならばサンプルをホワイトカラーの職種に限定した上で、教育年数が賃金に与える効果を検証する、という方法が望ましく思えます。ところが教育年数が職種に影響する場合、同職種における教育年数による賃金上昇の効果は、もはや因果効果ではないのです。これは仮に教育年数(学位)がランダムに割り振られていても同様です。
この問題を定式化しましょう。はのとき大卒を表すダミー、はのときホワイトカラー状態を表す職種ダミーです。、はそれぞれ賃金、ホワイトカラーの潜在結果です。前者は連続変数ですが後者は離散変数です。我々の観察する賃金、職種の観察データは大卒ダミーとこれらの潜在変数によって表すことができます。
ここでがランダムに割り振られる、つまり潜在変数と独立だと仮定します。この独立性の仮定のおかげで、大卒が賃金、職種に与える因果効果を推定できます。(3),(4)の右辺は平均処置効果(Average Treatment Effect;ATE)と呼ばれ、とをそれぞれに回帰することで推定できます。
の条件付き賃金の比較で因果効果を推定することができますが、の条件付き賃金の比較は因果推論にはなりません。サンプルをホワイトカラー職種で条件づけた上で、大卒者と非大卒者の平均賃金の違いを比べてみましょう。これは回帰モデルにを含める、もしくはサンプルをに限定した上でをに回帰させることで計算できます。後者の推定対象(estimand)は、
とは同時独立であるため、
さらに(6)の右辺第1項を分解すると、
ホワイトカラー職種の労働者における大学卒業によって賃金が上がった因果効果(Causal Effect of Courage Graduates)*1と、そもそも大卒有無が職種の構成員を変えてしまうというセレクションバイアスの部分に区分されます。
表を書いてみましょう。(7)の左辺は下表の①③に相当します。これを①②(ホワイトカラー職種の人が大学に行った場合と行かなかった場合の年収の差)の因果効果と、②③(大卒でホワイトカラーの人も非大卒でホワイトカラーの人もみんな大学に行かなかった場合の年収の差)のセレクションバイアスに区別します。
大卒の場合の賃金() | 非大卒の場合の賃金() | |
---|---|---|
大卒の場合のホワイトカラー職種() | ① | ② |
非大卒の場合のホワイトカラー職種() | ③ |
②-③のセレクションバイアスは、職業選択、大学進学選択、潜在的な賃金の関係によって正にも負にもなりえますが、この例では負になりそうです。なぜなら大学を出た多くの人がホワイトカラーの職に就くのに対し、大学を出ずにホワイトカラーの職に就く人は元々個人の能力が優れている、つまり②③だと考えらえるためです。
重要なのは、例えの場合、大学進学によって潜在的な賃金が変わらないとしても、大学進学によって職種が変わりうる以上セレクションバイアスはなくならない、という点です。
代理変数を使ったコントロール
良くないコントロール変数のもう一つの例が代理変数を使ったコントロール(proxy-control)です。これは欠落変数をコントロールするためにモデルに含めた変数自体が、推定対象である介入・処置変数(treatment variable)に影響を受ける問題です。引き続き、教育年数(大学進学)が賃金に与える影響を考えましょう。
は個人の能力を表す変数です。大学進学より前に決定される変数、高校生時の成績だとしましょう。誤差項はを満たすと仮定します。はよりも前に決定されるので、良いコントロール変数と言えます。
しかしモデルの推定に必要な高校生時のはデータは取得できず、代わりに大学卒業後の成績*2データしか集められなかったとしましょう。この変数を後天的能力(late ability)と呼びます。一般的には先天的な能力や教育年数は後天的能力と正の相関がありそうです。
(8)のの代わりに(9)*3の後天的能力を代入すると、
は正なのではより小さくなります。(9)のの推定値がゼロでない限り、後天的能力をコントロール変数として使うことで、本来の推定したかったを過少評価することになってしまうのです。
でもコントロールしないよりはマシ?
以上良くないコントロール変数の2つのパターンを説明しました。影響の方向は違えど、どちらも介入・処置変数と共変量が相関することが問題だと言えます。
最後に、ファーストベストなデータではないコントロール変数をモデルに含めるべきか否かを考えましょう。
仮に(8)に能力を含めずに推定すると、欠落変数バイアスが生じるため、推定値はとなります。はをに回帰した回帰係数ベクトルです。他方、先ほどの代理変数を用いた推定値はでした。が十分に小さければ、代理コントロールを用いた推計結果の方が真のに近しい値となるでしょう。この場合は代理コントロールであってもモデルに含めた方が精度の良い推定値を得られます。
またをに正の相関があるとき、つまりが正の場合、真のは代理コントロールを含めた推定値と、コントロール変数を含めない欠落変数バイアスを伴う推定値の間に位置すると考えることもできるのです。
繰り返しになりますが、コントロール変数の良い・悪いは変数の決定されるタイミングの問題です。とは言ってもタイミングなんてものは不確実な場合が多いです。我々がコントロール変数を用いるときに注意すべきは、共変量と介入変数、従属変数に関する因果経路(causal channels)(つまり何が最初に起き、その結果何が引き起こされるのか)に関して明確な仮定を記述することです。
終わりに・感想
比較的読みやすい節でした。1つ目の例は共変量(職種)が介入・処置変数(教育変数)に影響を与える、2つ目の例は介入・処置(教育年数)が共変量(成績)に影響を与える、という説明変数間の相関の問題とも捉えられると思います。
コントロール変数の選択方法は何かセオリーがあるというよりも、データの利用可能性や先行研究で用いられている変数等を参考にしながら相場が決まってくるのだと思います。読んでいただいてありがとうございました。