Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す

【Mostly Harmless Ch.3.3.2】傾向スコアのパラドックス

はじめに

この記事では傾向スコアマッチングを用いた推定量の効率性に関する問題(傾向スコアのパラドックス)について扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.3.2"Control for Covariates Using the Propensity Score"を参考にしています。

傾向スコアを用いて因果効果を表すことができる、ことを踏まえた上での重要な問題は、どのようなモデルでp(X_i)を推計するか、もしくは特に共変量が連続変数である場合E[Y_i|p(X_i),D_i]の推定にどの程度平滑化(smoothing)*1層別化(stratification)を行うかです。

回帰分析の場合、この手の問題は、共変量をいかにパラメータ化(parameterize)するかというものです(例えば多項式や共変量が離散変数である場合の主効果と交差項など)。この問題は特定の解がある訳ではなくケースバイケースです。

傾向スコアのパラドックス

最近傾向スコアマッチングを用いた推定量の漸近効率性に関する研究が注目を集めています。この議論の発端となったのがHahn(1998)の研究です。Hahn(1998)はCIAを所与として、傾向スコアの使用有無によって処置効果の最良推定(maximal precision of estimates of treatment effect)がどう変化するかを調査しました。

Jinyong Hahn, 1998. "On the Role of the Propensity Score in Efficient Semiparametric Estimation of Average Treatment Effects," Econometrica, Econometric Society, vol. 66(2), pages 315-332, March.

Hahn(1998)はノンパラメトリック回帰を用いた因果推定において、傾向スコアを説明変数として用いた場合、推定量は不偏性を満たすが効率が下がる(漸近分散が大きくなる)ことを示しました。これを傾向スコアのパラドックスと呼びます。

例えばAngrist(1998)では、回帰分析による推定量は、マッチング推定量と比べて効率が増加(漸近分散が低下)しました。

回帰分析においても同様の問題が発生します。欠落変数バイアスのない状況において、重回帰は単回帰に比べて、より良い推定量が得られます。欠落変数が従属変数と相関していようとしていまいと、推定値の分散は小さくなるのです。

傾向スコアの背景にある問題意識

Hahn(1998)の結果が示唆するのは、傾向スコアを用いるよりも共変量をそのままコントロールした方が推定値の効率がよい、というものでした。であるならば、なぜ我々は傾向スコアを用いる推定量を議論する必要があるのかという疑問が湧いてきます。傾向スコアの意味に関する哲学的な議論によると、傾向スコアは通常、複雑な要因によりもたらされる結果を説明するためというよりも、介入や処置の割り当てのモデルに研究者の注意を適切に集中させるというものです。つまりp(X_i) \rightarrow Y_iのメカニズムではなくX_i \rightarrow p(X_i)に焦点を当てるものではないか、という考え方です。
 
この考え方は、特に処置・介入が政府による規制などの結果実現する場合には説得力がありますが、一方で傾向p(X_i)が結果(従属変数;市場など)Y_iを決定するプロセスはより複雑なものです。たとえば、金融政策の時系列での因果効果の評価を行った、Angrist and Kuersteiner(2004)*2は、GDPの決定プロセスよりも、連邦準備制度が金利をどのように設定するか(つまり金利という介入・処置の決定プロセス)についてより多くを知っていると主張しています。同じ考え方で、結果Y_iのモデルを検証するよりも、治療の割り当てのモデルを検証する方が簡単かもしれません(Rosenbaum and Rubin(1985)*3)。

次元の呪いを克服する傾向スコア

傾向スコアを利用するための(純粋に)統計学的な議論がAngrist and Hahn(2004)で説明されています。

Joshua Angrist & Jinyong Hahn, 2004. "When to Control for Covariates? Panel Asymptotics for Estimates of Treatment Effects," The Review of Economics and Statistics, MIT Press, vol. 86(1), pages 58-72, February.

この論文では、共変量を用いたマッチング(covariate matching)と傾向スコアを用いたマッチング(propensity score matching)によって得られた推定量の分散を比較し、前者の漸近分散の方が小さい、すなわち推定の効率が良いことが示されました。と同時に、処置群と対照群に共通するセル(観測値)の数が小さく、共変量の説明力が弱いとき、傾向スコアを用いたマッチングの方が推定の効率が良いことも明らかになりました。セルの数が小さいとは、共変量をコントロールする場合、共変量の数を増やすにつれて処置群と対象群に共通して観察される値の数が減ってしまう状態*4、を指します。これは有限なデータを扱いながら、できる限り処置群と対照群を比較対象な状態にしたい、という我々実証研究者にとっては重要な結果です。

仮に、傾向スコアから除外されたある共変量が従属変数に対してほとんど説明力をもたない場合は、あえてその共変量を含めて傾向スコアを推定する必要はありません。層別化し、処置変数と従属変数に影響を与える変数を選択するプロセスです。

パラドックスの克服~共変量の次元を減らすために

最後に、Hahn(1998)によって提起されたパラドックスに対する代替的な解決策を紹介します。

Keisuke Hirano & Guido W. Imbens & Geert Ridder, 2003. "Efficient Estimation of Average Treatment Effects Using the Estimated Propensity Score," Econometrica, Econometric Society, vol. 71(4), pages 1161-1189, July.

Hirano,Imbens and Ridder(2003)は、IPW推定量はノンパラメトリック回帰により推定された傾向スコアを用いた重みづけ平均は、既知の傾向スコア(真の傾向スコア)を重みづけ平均よりも精度が高い(漸近分散が小さい)という興味深い結果を示しています。Horvitz-Thompson型 weighting estimator つまりIPW推定量は効率的だという結果をします。傾向スコアがノンパラメトリックな手法で推定されるのがHirano,Imbens and Ridder(2003)のエッセンスです。

Hirano,Imbens and Ridder(2003)の結果は、傾向スコアのパラドックスを解決するのでしょうか。暫定的にはAngrist and Hahn(2004)による有限標本下での解決策の方が望ましく思えます。2004の結果は、傾向スコアを用いる研究者の意思によって、考え方や統計的な説明力(statistical power)が与えられることを意味します。逆に言うと研究者の意味付けがないと、傾向スコアに基づく推定の考え方(comcept)や統計的な説明力は解釈として得られません。

たとえば、高次元ではあるが離散共変量のアプリケーションであるAngrist(1998)では、傾向スコアの何の制限もないノンパラメトリック推定量は、ただの各共変量セルでの治療の経験的確率にすぎません。

このノンパラメトリック推定量\hat{p(X_i)}を(1)(2)のp(X_i)に代入すると、(1)(2)の標本対応が得られ、それぞれが対応する全ての共変量を用いたマッチング推定量と代数的に等価であると示すことができます。


 {
\begin{eqnarray}
E[Y_{1i}-Y_{0i}]&=& E\left[\frac{Y_{i}D_{i}}{\textit{p}(X_i)} - \frac{Y_i(1-D_i)}{1-\textit{p}(X_i)}\right] \\
                                   &=&  E\left[\frac{(D_i-\textit{p}(X_i))Y_{i}}{(1-\textit{p}(X_i))}\right] \tag{1}
\end{eqnarray}
}

 {
\begin{eqnarray}
E[Y_{1i}-Y_{0i}|D_i=1]&=& E\left[\frac{(D_i-\textit{p}(X_i))Y_{i}}{(1-\textit{p}(X_i))(P(D_i=1))}\right] \tag{2}
\end{eqnarray}
}

したがって、共変量マッチングは漸近的に効率的なベンチマークであるため、傾向スコアマッチングを用いた推定量が効率的になることは驚くことではありません。傾向スコア法の重要な要素は、次元削減(dimension reduction)のための事前知識( prior knowledge )の使用です。この操作で得られる利益は、有限サンプルにおける推定量の漸近分散の低下です。いかに共変量の次元を減らすために、介入変数の決まり方を検討するかが鍵なのです。

共変量の次元を減らすための諸々の操作(平滑化、制限、またはその他の方法)共変量マッチングまたは飽和回帰モデルによるコンロールを使用するという分析の進め方となることでしょう。

終わりに・感想

特に意味なくても共変量さえ増やしていけば標準誤差は小さくなるということなのでしょうか。読んでいただいてありがとうございました。

*1:ガタガタな推計値を滑らかな線(線形/非線形どちらも)にするという意味です。

*2:Angrist, Joshua & Kuersteiner, Guido M., 2008. "Causal Effects of Monetary Shocks: Semiparametric Conditional Independence Tests with a Multinomial Propensity Score," IZA Discussion Papers 3606, Institute of Labor Economics (IZA).

*3:Paul R. Rosenbaum & Donald B. Rubin (1985) Constructing a Control Group Using Multivariate Matched Sampling Methods That Incorporate the Propensity Score, The American Statistician, 39:1, 33-38, DOI: 10.1080/00031305.1985.10479383

*4:これを次元の呪い(curse of dimensionality)と呼ばれる問題です