【Mostly Harmless Ch.3.1.1】条件付き期待値

はじめに

この記事では、条件付き期待値（Conditional Expectation）とその性質について扱います。内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly harmless econometrics』Ch.3.1.1"Economic Relationships and the Conditional Expectation Function"に依拠しています。

はじめに
条件付き期待値とは？
条件付き期待値の性質
終わりに・感想
参考文献

条件付き期待値とは？

教育年数が賃金に及ぼす影響について関心があるとしましょう。ここでの条件付き期待値関数（Conditional Expectation Function；CEF）は教育年数が $X_i$ 年だった場合に、賃金 $Y_i$ の期待値がいくらになるか、を計算するものです。回帰モデルは説明変数を所与として従属変数がいくらになるか、つまり従属変数の条件付き期待値を表します。

この条件付き期待値は、教育年数 $X_i$ から賃金 $Y_i$ への因果関係を表すものではありません。しかし、教育年数（高卒か大卒か等）という条件によってある程度賃金を予測することはできます。条件付き期待値はこの予測力を表すものです。

この問題を定式化しましょう。

賃金（従属変数） $Y_i$ のCEFは、 $x_{ki}$ を成分に持つ $k×1$ の教育年数ベクトル $X_i$ を所与とした場合の期待値（母集団の平均値）です。 $Y_i$ が連続/離散変数の場合のCEFはそれぞれ以下のように表されます。 $f_y$ は条件付き確率密度関数、 $P$ は条件付き確率質量関数です。

${ \begin{eqnarray} E[Y_i|X_i = x] &=& \left\{\begin{array}{l} \int t f_y(t|X_i = x) dt &if &Y_i& is& continuous\\ \sum t P(Y_i=t|X_i = x) &if &Y_i &is& discrete \\ \end{array} \right. \tag{1} \end{eqnarray} }$

「期待値を取る」という操作は暗に母集団の存在を想定しています。実際にデータを分析する場合には、我々は母集団全体のデータを扱うのではなく、母集団から得られた標本（サンプル）を用います。これがまさに統計的推論と呼ばれる考え方なのですが、一旦この話題は置いておいて、まずは母集団を対象にした条件付き期待値の考え方から出発し、その後標本（サンプル）においても同様に条件付き期待値の性質が成立すると仮定して話を進めます。

CEFに関連する重要な補足事項が、繰り返し期待値の法則（law of iterated expectations）です。これは $X_i$ を所与とする $Y_i$ の条件付き期待値を計算し、さらにその期待値を取ると、 $Y_i$ の（条件なし）期待値となることを示すものです。*1

${ \begin{eqnarray} E[Y_i] &=& E\{E[Y_i|X_i]\} \tag{2} \end{eqnarray} }$

同時密度関数（joint density） $f_{xy}(u,t)$ と周辺分布（marginal densities） $g_x(u), g_y(t)$ をもつ連続確率変数 $(X_i,Y_i)$ を仮定し、(2)を証明しましょう。

${ \begin{eqnarray} E\{E[Y_i|X_i]\} &=& \int E[Y_i|X_i] g_x(u) du \\ &=& \int \left[ \int tf_y(t|X_i = u)dt \right] g_x(u) du \\ &=& \int \int tf_y(t|X_i = u)g_x(u)dudt \\ &=& \int t\left[ \int f_y(t|X_i = u)g_x(u) du \right] dt\\ &=& \int t f_{xy}(u,t) dt \\ &=& \int t g_y(t) dt \tag{3} \end{eqnarray} }$

$X_i,Y_i$ が離散確率変数の場合にも同様に証明できます。

条件付き期待値の性質

繰り返し期待値の法則は、確率変数 $Y_i$ をCEFと残差（residual）に区別するという発想に基づくものです。

定理1 The CEF decomposition theory

${ \begin{eqnarray} Y_i = E[Y_i|X_i] + ε_i \end{eqnarray} }$
1. $ε_i$ は $X_i$ に対してmean dependent、つまり $E[ε_i|X_i$ =0]
2. $ε_i$ は $X_i$ のいかなる関数からも独立

1.は $E[ε_i|X_i$ ]に $ε_i =Y_i - E[Y_i|X_i$ ]を代入すると自ずと導出できます。2.は任意の $X_i$ の関数を $h(X_i)$ とし、 $E[ε_ih(X_i)$ ]について繰り返し期待値の法則を適用し、で示した $E[ε_i|X_i$ =0]を用いると証明できます。

定理1は、いかなる確率変数 $Y_i$ も、 $X_i$ により説明される部分（CEF）と、 $X_i$ のいかなる関数からも独立した部分（残差）に区分することができる、ことを示しています。

定理2 The CEF Prediction Property

$m(X_i)$ を $X_i$ の任意の関数とすると、CEFは以下の $m(X_i)$ についての最適化の解となり、 $Y_i$ の最小平均二乗誤差（Minimum Mean Squared Error；MMSE ）推定量となる。

${ \begin{eqnarray} E[Y_i|X_i] =\underset{m(X_i)}{arg\,min} & E[(Y_i-m(X_i))^2] \end{eqnarray} }$

右辺の期待値の中身を展開すると、

${ \begin{eqnarray} (Y_i-m(X_i))^2 &=& (Y_i-E[Y_i|X_i] + E[Y_i|X_i]-m(X_i))^2 \\ &=& (Y_i-E[Y_i|X_i])^2 + 2(Y_i-E[Y_i|X_i])(E[Y_i|X_i]-m(X_i)) + (E[Y_i|X_i]-m(X_i))^2\tag{4} \end{eqnarray} }$

第1項は $m(X_i)$ を含まず最適化には影響しません。第2項は任意の関数 $h(X_i)$ を用いて $h(X_i)ε_i$ と表すことができるため定理1によって期待値ゼロ。第3項はCEFである $E[Y_i|X_i$ ]が $m(X_i)$ と等しくなるときゼロ、つまり最小となります。

ちなみに上式の両辺の期待値を取ると、

${ \begin{eqnarray} E[(Y_i-m(X_i))^2] &=& E[(Y_i-E[Y_i|X_i])^2] + 2E[(Y_i-E[Y_i|X_i])(E[Y_i|X_i]-m(X_i))] + (E[Y_i|X_i]-m(X_i))^2\\ &=& V[Y_i] + (E[Y_i|X_i]-m(X_i))^2 \tag{5} \end{eqnarray} }$

左辺は平均二乗誤差（mean squared error）です。 $E[Y_i|X_i$ ]が $m(X_i)$ と等しくなるとき、平均二乗誤差は $Y_i$ の分散と等しくなります。定理2によると、CEFは $X_i$ を所与としたとき、平均二乗誤差（Minimum Mean Squared Error；MMSE）を最小にするという意味で最も優れた $Y_i$ の推定量です。

定理3 Analysis of variance (ANOVA) theorem

${ \begin{eqnarray} V[Y_i] =V(E[Y_i|X_i]) + E[V(Y_i|X_i)] \end{eqnarray}}$

$V[・$ ]は分散、 $V[Y_i|X_i$ ]は $Y_i$ の $X_i$ の条件付き分散である。

定理1を用いて左辺を展開すると、

${ \begin{eqnarray} V[Y_i] &=&V(E[Y_i|X_i] + ε_i) \\ &=&V(E[Y_i|X_i] ) + V(ε_i) \\ &=&V(E[Y_i|X_i] ) + E[(ε_i - E[ε_i])^2] \\ &=&V(E[Y_i|X_i] ) + E[(Y_i - E[Y_i|X_i])^2] \\ 　　　 &=&V(E[Y_i|X_i] ) + E[E[Y_i^2|X_i]-(E[Y_i|X_i])^2] \\ &=&V(E[Y_i|X_i] ) + E[V(Y_i|X_i)] \tag{6} \end{eqnarray} }$

定理3の結果を導出できました*2。2つめの等号は分散の加法性（定理1より $ε_i$ と $X_i$ は独立であるため交差項（共分散）はなし）、4つ目の等号では $ε_i$ の期待値ゼロの性質を用いています。

定理3（ANOVA）は不平等（inequality）の研究においても応用される考え方です。例えば $X_i$ を労働者の特徴、 $Y_i$ を労働者の賃金としましょう。労働者の賃金の分散 $V[Y_i]$ を、異なる $X_i$ を持つ労働者間の賃金のばらつき( $V(E[Y_i|X_i]$ ) と、同じ $X_i$ を持つ労働者内の賃金のばらつき( $E[V(Y_i|X_i)]$ )に分解することで、賃金のばらつき＝格差の生まれるメカニズムやその是正策についての示唆が得られるのです。

終わりに・感想

今回の記事では回帰分析を理解する上で重要な条件付き期待値とその性質について扱いました。特に定理1,2は最小二乗法（Ordinary least square method）と密接に関連します。Angrist and Piscke(2008)の面白いところは、明示的にOLS問題によって回帰係数ベクトルを定義していない*3部分です。多くの計量経済学の教科書では、まずは誤差の二乗和の正規方程式を作り、それを最適化（1階微分）や平方完成によって回帰係数ベクトルを導出する、という流れですよね。

読んでいただいてありがとうございました。

参考文献

Mostly Harmless Econometrics: An Empiricist's Companion

作者:Angrist, Joahua D.,Pischke, Jorn-steffen
Princeton University Press

Amazon

*1:例えば男性と女性を含む母集団の賃金の平均値は、 $E[Y] = E[Y|X=man] \times \frac{man}{pop} + E[Y|X = woman] \times \frac{woman}{pop}$ と表されます。 $Y$ の期待値は、 $Y$ の $X$ による条件付き期待値の、 $X$ の割合を元にした加重平均値の形になります。(3)において周辺分布がウェイトの役割を果たしています。