Goodな生活

INTPの好奇心の受け皿

【Mostly Harmless Ch.3.1.2】線形回帰と条件付き期待値

はじめに

この記事は条件付き期待値について扱います。回帰係数と条件付き期待値関数(Conditional Expectation Function;CEF)の関係について3つの定理を見ていきましょう。内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Chapter3.1.2"Linear Regression and the CEF"に依拠しています。

回帰係数と条件付き期待値~回帰分析の正当化

条件付き期待値の性質を表す3つの定理を紹介します。

定理4 The Linear CEF Theorem(Regression Justification Ⅰ)

CEFが線形であるとき、母回帰関数はCEFそのものとなる。

任意のk×1の回帰係数ベクトルβ*について、E[Y_i|X_i] = X_i'β*、つまりCEFが線形だと仮定します。定理1(CEF decomposition property)*1より、E[X_i(Y_i - E[Y_i|X_i])] = 0E[Y_i|X_i] = X_i'β*をこの式に代入すると、β* = E[X_iX_i']^{-1}E[X_iY_i] = βが得られます。X_{i1}=1とおくと定数項も表せます。

定理4の前提条件は「CEFが線形」ですが、CEFが線形となるのはどのような場合でしょうか。オーソドックスな考え方はGalton(1886)*2によって示されたもので、ベクトルY_i,X_i'が多変量正規分布に従う場合です。しかし正規分布が連続変数を仮定する一方、従属変数と説明変数は離散変数であることが多いため、実証分析の実態との関連が弱くなってしまいます。他の考え方が「回帰モデルがSaturated(飽和)」であるときです。Saturated modelとは説明変数の取りうるすべての組み合わせがモデルに含まれるような回帰モデルです。これについては別の記事で扱います。

定理5 The Best Linear Predictor Theorem (Regression-justification II)

X_iを所与とする。X_i'βは最小平均二乗誤差(Minimum Mean Squared Error;MMSE)を満たす意味で、Y_i最良線形推定量(Best linear predictor)である


定理5はβ= E[X_iX_i']^{-1}E[X_iY_i]が最小二乗問題の解であることをもって証明できます。

定理6 The Regression-CEF Theorem (Regression-justification III)

X_i'βE[Y_i|X_i]のMMSEの線形近似である。


 {
\begin{eqnarray}
β =\underset{b}{argmin}  &E[(Y_i-X_i'b)^2]  
\end{eqnarray}
}

右辺の期待値の中身の二次関数を最小化しましょう。


 {
\begin{eqnarray}
 (Y_i-X_i'b)^2 &=&  (Y_i-E[Y_i|X_i])) + (E[Y_i|X_i]-X_i'b)^2 \\
                        &=&   (Y_i-E[Y_i|X_i])^2 + 2(Y_i-E[Y_i|X_i])(E[Y_i|X_i]-X_i'b)) +  (E[Y_i|X_i]-X_i'b)^2 \tag{1}
\end{eqnarray}
}

第1項はX_i'bを含まないため最適化には影響しません。第3項は定理1(CEF decomposition property)により期待値ゼロ。CEFの近似問題である定理6は最小二乗問題と同じ解を持ちます。

定理4,5は回帰について更に二つの見方を提示します。回帰はCEFと同様に従属変数の最良線形推定量(best linear predictor)を導出します。一方で、従属変数Y_iではなくE[Y_i|X_i]の近似について考える場合、定理6は、例えCEFが非線形であっても、回帰によって最良な線形近似(best linear approximation)を得ることができることを保証します。

定理6は、回帰の正当化します。回帰がCEFを近似するという主張は、(必ずしもピンポイントの予測を行うものではなく)統計的関係の本質的な特徴を記述する実証研究の姿勢と一致しています。定理4は特別なケースです。定理5は一般的に成立するものですが、分析を行うにあたってはいささか客観的すぎる点もあります。というのも研究者の関心は個々のY_iの予測ではなく、Y_iの分布であるからです。

教育年数で条件付けた賃金のCEF(ドット)と回帰直線(ダッシュ)

上のグラフは、IPUMS*3のデータを使い、教育年数X_iで条件付けた賃金のCEFE[Y_i|X_i]と回帰直線をプロットしたものです。回帰直線は、従属変数が[tex;Y_i]のモデルではなくE[Y_i|X_i]のモデルを推定しているかのように、ややデコボコした非線形CEFにフィットします。定理6の示唆するのは、回帰係数βは、Y_iの代わりにE[Y_i|X_i]を従属変数として推定しても得られる、ということです。これを証明するため、確率質量関数g_xを持つ離散確率変数X_iを仮定しましょう。


 {
\begin{eqnarray}
E\{ (E[Y_i|X_i]-X_i'b)\}^2 &=&  \sum_u (E[Y_i|X_i = u] - u'b)^2 g_x(u) \tag{2}
\end{eqnarray}
}


βE[Y_i|X_i = u]uに回帰させる重み付き回帰(Weighted Least Squares;WLS)の結果得られる値です。ウェイトはX_iの確率分布g_x(u)によって与えられます。βに対して繰り返し期待値の法則を適用すると、より分かりやすいのではないでしょうか。


 {
\begin{eqnarray}
β &=&   E[X_i'X_i]^{-1} E[X_i'Y_i] \\
  &=&    E[X_i'X_i]^{-1}E[X_i'E(Y_i|X_i)] \tag{3}
\end{eqnarray}
}


Y_iの代わりにCEFやグループ化されたデータ(grouped data)を従属変数として用いる回帰式は、ミクロデータの分析に踏み込まない場合には実用性に富みます。例えばAngrist(1998)による、自発的な兵役経験(voluntary military service)が収入に与える影響についての研究です。

Joshua D. Angrist, 1998. "Estimating the Labor Market Impact of Voluntary Military Service Using Social Security Data on Military Applicants," Econometrica, Econometric Society, vol. 66(2), pages 249-288, March.

この研究の識別戦略の一つは、個人の収入を、退役軍人ダミー(dummy for veteran status)および兵士の選抜に用いられる個人特性(共変量)に回帰させる、というものです。収入のデータは米国社会保障局(US social security system)所掌ですが一般公開はされていません。そこで仕方なく個人の収入データを用いる代わりに、共変量(人種、性別、成績、退役軍人ダミー)で条件付けした平均収入を従属変数として扱ったのです。つまりY_iではなくE[Y_i|X_i]を従属変数として回帰を行った訳です。

Angrist(1998)では、個人の収入データを従属変数にした場合と、共変量による条件付き期待値を従属変数にした場合とで、まったく同じ回帰係数が得られました。ただし標準誤差は、グループ化されたデータを用いた結果では漸近的な標本分散(asymptotic sample variance)よりも過剰な結果となりました。

終わりに・感想

とにかく何回も条件付き期待値関数(CEF)という単語が出てきます。定理5,6は線形な回帰モデルを推定することで、従属変数Y_i,E[Y_i|X_i]の最小二乗推定量が得られる、という意味でOLSの言い換えなのだと思います。疑問に思ったのは、いくら定理5,6が言えたとしても結局CEFが線形かどうか、つまり定理4の仮定に線形回帰の妥当性が依存するのでは、ということです。この仮定があるが故、回帰分析には説明変数や誤差項に関するいくつかの仮定が必要なのかもしれません。読んでいただいてありがとうございました。

参考文献

グラフの作成には、以下のGitHubのコードを使用させていただきました。
github.com

*1:前回の記事 【Mostly Harmless Ch.3.1.1】条件付き期待値 - Goodな生活 を参照ください。

*2:"Regression Towards Mediocrity in Hereditary Stature". The Journal of the Anthropological Institute of Great Britain and Ireland. 15: 246–263. 1886. doi:10.2307/2841583.

*3:データの出所はIPUMS(International Integrated Public Use Microdata Series)の1980年の40歳から49歳の白人男性の5%。IPUMSは, ミネソタ人口センターと世界各国の統計局による共同プロジェクト。