Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す

【Mostly Harmless Ch.3.3.1,3.5】回帰係数と平均変化率

はじめに

この記事では引き続き回帰とマッチング推定量の性質について扱います。前回の記事では介入・処置変数がダミー変数(二項変数)のケースにおいて回帰をマッチング推定量として解釈できると説明しました。この解釈は介入・処置変数が順序(ordered)・連続(continuous)変数のケースにおいても成立します。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly harmless econometrics』Ch.3.3.1の後半"Even More on Regression and Matching: Ordered and Continuous Treatments"およびCh.3.5"Appendix: Derivation of the Average Derivative Wighting Function"を参考にしています。

回帰係数の推定量は、常に条件付き期待値関数(CEF)の最小平均誤差(MMSE)推定量です。この性質は説明変数が二項変数の場合と同様に、順序・連続変数の場合も成立します。関連する性質が、回帰係数を平均変化率(average derivative)と見なす考え方です。

回帰係数と平均変化率の関係

介入変数S_iを連続な確率変数だと仮定します。非負である必要はありません。我々が関心のあるCEFを一階導関数h'(t)をもつh(t)=E[Y_i|S_i=t]とします。従属変数Y_iを介入変数S_iに回帰したときの回帰係数は、



\begin{eqnarray}
\frac{Cov(Y_i,S_i)}{V(S_i)} &=& \frac{E[(Y_i-E[Y_i])(S_i-E[S_i])]}{E[(S_i-E[S_i])^2]} \\
                                       &=& \frac{E[h(S_i)(S_i-E[S_i])]}{E[S_i(S_i-E[S_i])]} \\ \tag{1}
\end{eqnarray}


h(t)について微分積分学の基本定理を適用し、



\begin{eqnarray}
\int_{-\infty}^{S_i} h'(t) dt &=& h(S_i) - \lim_{t \to -{\infty}} h(t) \\
h(S_i) &=& \int_{-\infty}^{S_i} h'(t) dt + \kappa_{-\infty} \tag{2}
\end{eqnarray}


\kappa_{-\infty}は微小な値なので無視します。(2)を(1)の分子に代入すると、



\begin{eqnarray}
E[h(S_i)(S_i-E[S_i])] &=& \int_{-\infty}^{\infty} \int_{-\infty}^{u}h'(t)(u-E[S_i])g(u)dtdu \\
                                    &=& \int_{-\infty}^{\infty} h'(t)\int_{t}^{+ \infty}(u-E[S_i])g(u)dudt \tag{3}
\end{eqnarray}


g(u)S_i=uのときのS_iの密度関数です。積分の順序を変え、(3)の内側の積分を計算します。



\begin{eqnarray}
\mu_t &=& \int_{t}^{\infty}(u-E[S_i])g(u)du \\
           &=& \int_{t}^{\infty}ug(u)du- \int_{t}^{\infty}E[S_i]g(u)du \tag{4}
\end{eqnarray}


(4)を期待値を使って書き直すと、



\begin{eqnarray}
\mu_t &=& E[S_i|S_i > t]P(S_i \geq t) - E\{E[S_i]|S_i >t \}P(S_i \geq t) \\ 
          &=& E[S_i|S_i > t]P(S_i \geq t) - E[S_i]P(S_i \geq t)  \tag{5}
\end{eqnarray}


またE[S_i]は、



\begin{eqnarray}
E[S_i] &=&E[S_i|S_i > t]P(S_i \geq t) + E[S_i|S_i < t](1-P(S_i \geq t)) \tag{6}
\end{eqnarray}


と表されるので、(6)を(5)に代入すると、



\begin{eqnarray}
\mu_t &=& E[S_i|S_i > t]P(S_i \geq t)(1-P(S_i \geq t)) - E[S_i|S_i < t ](1-P(S_i \geq t))P(S_i \geq t) \\
          &=& \{E[S_i|S_i \geq t] - E[S_i|S_i < t ]\}(1-P(S_i \geq t))P(S_i \geq t) \tag{7}
\end{eqnarray}


したがって(1)の回帰係数は、



\begin{eqnarray}
\frac{E[h(S_i)(S_i-E[S_i])]}{E[S_i(S_i-E[S_i])]} &=& \frac{\int_{-\infty}^{\infty}h'(t)\mu_t dt}{\int_{-\infty}^{\infty}\mu_t dt} \tag{8}                            
\end{eqnarray}


と表すことができます。\mu_tは重みの役割を果たしています。回帰モデルに共変量X_iを含めた場合、つまり重回帰の場合(8)はX_iに依存する変数となります。



\begin{eqnarray}
\frac{E[h(S_i)(S_i-E[S_i|X_i])]}{E[S_i(S_i-E[S_i|X_i])]} = \frac{E[\int_{-\infty}^{\infty}h'_X(t)\mu_{tX} dt]}
{E[\int_{-\infty}^{\infty}\mu_{tX} dt]}  \tag{9}                                       
\end{eqnarray}


ここでは、



\begin{eqnarray}
h'_X(t) &=& \frac{\partial E[Y_i|X_i,S_i=t]}{\partial t}     \tag{10}     \\              
\mu_{tX} &=& \{E[S_i|X_i,S_i \geq t] - E[S_i|X_i,S_i < t ]\}(1-P(S_i \geq t|X_i))P(S_i \geq t|X_i) \tag{11}
\end{eqnarray}


です。(9)は、2種類の平均化を表しています。1つは、ある特定の共変量における非線形CEFの平均をとる積分、もう1つは共変量間の平均をとる期待値です。重要な点は、P(S_{i} \geq t  |X_{i})が0または1になるX_iにおいては、回帰係数はS_iがCEFに与える影響についていかなる情報も含んでいないため解釈ができないということです。

S_iが0,1をとるダミー変数(離散確率変数)だと仮定すると、(9)をS_iの条件付き分散で重みを付けた平均処置効果(ATE)の加重平均値の形で表すことができます。



\begin{eqnarray}
\frac{E[h(S_i)(S_i-E[S_i|X_i])]}{E[S_i(S_i-E[S_i|X_i])]}&=&  \frac{E[σ_S^2(X_i)δ_X]}{E[σ_S^2(X_i)]} \tag{12}
 \end{eqnarray}


ここでは、



\begin{eqnarray}
δ_X &=&  E[Y_i|X_i,S_i=1]-E[Y_i|X_i,S_i =0] \tag{13}   \\            
\mu_{tX} &=& \{E[S_i|X_i,S_i =1 ] - E[S_i|X_i,S_i =0 ]\}(1-P(S_i =1|X_i))P(S_i =1|X_i) \\
              &=& \{1-0\}(1-P(S_i =1|X_i))P(S_i =1|X_i) \\
              &=& σ^2_S(X_i) \tag{14}
\end{eqnarray}


介入変数が連続かつ微分可能な場合は平均変化率、離散変数の場合は期待値の差分を導出することになり、どちらも平均処置効果(ATE)の言い換えだとが分かります。共変量をモデルに含めるかどうかによって変化率や差分の重みの付け方が変わります。*1

処置変数が正規分布に従う場合

説明変数の確率の分布を考えることでさらに(8)(9)から示唆を得ることができます。

連続変数S_iを標準化した変数z_iを考えます。z_iは標準正規分布に従います。



\begin{eqnarray}
z_i = \frac{S_i-E[S_i]}{σ_s}   \sim \mathcal{N}(0,1) \tag{15}                            
\end{eqnarray}


切断正規分布(truncated normal distribution)の性質を用いて、



\begin{eqnarray}
E[z_i|z_i > t*] = \frac{\phi(t*)}{1-\Phi(t*)} \tag{16} \\                    
E[z_i|z_i < t*] = \frac{-\phi(t*)}{\Phi(t*)} \tag{17}
\end{eqnarray}


z_iの条件付き期待値を確率密度関数(PDF)\phi、累積密度関数(CDF)\Phiによって表します。

(5)は


\begin{eqnarray}
\mu_t &=& σ_s \left\{ \frac{\phi(t*)}{1-\Phi(t*)} - \frac{-\phi(t*)}{\Phi(t*)} \right\} [1-\Phi(t*)]\Phi(t*) \\
          &=& σ_s \phi(t*) \tag{18}
\end{eqnarray}

したがって回帰係数は、


\begin{eqnarray}
\frac{Cov(Y_i,S_i)}{V(S_i)} =E[h'(t)] \tag{19}
\end{eqnarray}

言い換えると介入変数S_iが正規分布に従うとき、従属変数Y_iS_iに回帰することで、重み付けされていない平均変化率が求まります。

終わりに・感想

4回ぐらい原文を読みました。難しかったです。特に(8)と(9)の違いです。重回帰になると係数に期待値オペレーターのE[ ]が登場しています。これは複数の共変量X_iの平均をとる、という操作が出てくるからでしょうか。読んでいただきありがとうございました。

*1:原文には、共変量を含める=重回帰モデルでは、OLS推定量はCEFの勾配ベクトルの行列加重平均(matrix-weighted average)という記載があります。おそらくE [\mu_{tX}]のことを指していると考えられますが、理解が及んでいません。原文にも行列加重平均の解釈は複雑だとあります。