Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す

【Mostly Harmless Ch.3.1.1】条件付き期待値

はじめに

この記事では、条件付き期待値(Conditional Expectation)とその性質について扱います。内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly harmless econometrics』Ch.3.1.1"Economic Relationships and the Conditional Expectation Function"に依拠しています。

条件付き期待値とは?

教育年数が賃金に及ぼす影響について関心があるとしましょう。ここでの条件付き期待値関数(Conditional Expectation Function;CEF)は教育年数がX_i年だった場合に、賃金Y_iの期待値がいくらになるか、を計算するものです。回帰モデルは説明変数を所与として従属変数がいくらになるか、つまり従属変数の条件付き期待値を表します。

この条件付き期待値は、教育年数X_iから賃金Y_iへの因果関係を表すものではありません。しかし、教育年数(高卒か大卒か等)という条件によってある程度賃金を予測することはできます。条件付き期待値はこの予測力を表すものです。

この問題を定式化しましょう。

賃金(従属変数)Y_iのCEFは、x_{ki}を成分に持つk×1の教育年数ベクトルX_iを所与とした場合の期待値(母集団の平均値)です。Y_iが連続/離散変数の場合のCEFはそれぞれ以下のように表されます。f_yは条件付き確率密度関数、Pは条件付き確率質量関数です。


 {
\begin{eqnarray}
E[Y_i|X_i = x] &=& 
\left\{\begin{array}{l}
\int t f_y(t|X_i = x) dt &if &Y_i& is& continuous\\
\sum t P(Y_i=t|X_i = x)  &if &Y_i &is& discrete \\
\end{array}
\right.  \tag{1}
\end{eqnarray}
}

「期待値を取る」という操作は暗に母集団の存在を想定しています。実際にデータを分析する場合には、我々は母集団全体のデータを扱うのではなく、母集団から得られた標本(サンプル)を用います。これがまさに統計的推論と呼ばれる考え方なのですが、一旦この話題は置いておいて、まずは母集団を対象にした条件付き期待値の考え方から出発し、その後標本(サンプル)においても同様に条件付き期待値の性質が成立すると仮定して話を進めます。

CEFに関連する重要な補足事項が、繰り返し期待値の法則(law of iterated expectations)です。これはX_iを所与とするY_iの条件付き期待値を計算し、さらにその期待値を取ると、Y_iの(条件なし)期待値となることを示すものです。*1


 {
\begin{eqnarray}
E[Y_i] &=& E\{E[Y_i|X_i]\} \tag{2}
\end{eqnarray}
}


同時密度関数(joint density)f_{xy}(u,t)と周辺分布(marginal densities)g_x(u), g_y(t)をもつ連続確率変数(X_i,Y_i)を仮定し、(2)を証明しましょう。


 {
\begin{eqnarray}
E\{E[Y_i|X_i]\} &=&  \int E[Y_i|X_i] g_x(u) du \\
&=& \int \left[ \int tf_y(t|X_i = u)dt \right] g_x(u) du \\
&=& \int \int tf_y(t|X_i = u)g_x(u)dudt \\
&=& \int t\left[ \int f_y(t|X_i = u)g_x(u) du \right] dt\\
&=& \int t f_{xy}(u,t) dt \\
&=& \int t g_y(t) dt  \tag{3}
\end{eqnarray}
}

X_i,Y_iが離散確率変数の場合にも同様に証明できます。

条件付き期待値の性質

繰り返し期待値の法則は、確率変数Y_iをCEFと残差(residual)に区別するという発想に基づくものです。

定理1 The CEF decomposition theory

 {
\begin{eqnarray}
Y_i = E[Y_i|X_i] + ε_i 
\end{eqnarray}
}

1. ε_iX_iに対してmean dependent、つまりE[ε_i|X_i=0]
2. ε_iX_iのいかなる関数からも独立

1.はE[ε_i|X_i]に ε_i =Y_i - E[Y_i|X_i]を代入すると自ずと導出できます。2.は任意のX_iの関数をh(X_i)とし、E[ε_ih(X_i)]について繰り返し期待値の法則を適用し、で示したE[ε_i|X_i=0]を用いると証明できます。

定理1は、いかなる確率変数Y_iも、X_iにより説明される部分(CEF)と、X_iのいかなる関数からも独立した部分(残差)に区分することができる、ことを示しています。

定理2 The CEF Prediction Property

m(X_i)X_iの任意の関数とすると、CEFは以下のm(X_i)についての最適化の解となり、Y_i最小平均二乗誤差(Minimum Mean Squared Error;MMSE )推定量となる。


 {
\begin{eqnarray}
E[Y_i|X_i] =\underset{m(X_i)}{arg\,min}  & E[(Y_i-m(X_i))^2] 
\end{eqnarray}
}

右辺の期待値の中身を展開すると、


 {
\begin{eqnarray}
 (Y_i-m(X_i))^2 &=&  (Y_i-E[Y_i|X_i] + E[Y_i|X_i]-m(X_i))^2 \\
                        &=&   (Y_i-E[Y_i|X_i])^2 + 2(Y_i-E[Y_i|X_i])(E[Y_i|X_i]-m(X_i)) +  (E[Y_i|X_i]-m(X_i))^2\tag{4}
\end{eqnarray}
}

第1項はm(X_i)を含まず最適化には影響しません。第2項は任意の関数h(X_i)を用いてh(X_i)ε_iと表すことができるため定理1によって期待値ゼロ。第3項はCEFであるE[Y_i|X_i]がm(X_i)と等しくなるときゼロ、つまり最小となります。


ちなみに上式の両辺の期待値を取ると、


 {
\begin{eqnarray}
E[(Y_i-m(X_i))^2] &=&  E[(Y_i-E[Y_i|X_i])^2] + 2E[(Y_i-E[Y_i|X_i])(E[Y_i|X_i]-m(X_i))] +  (E[Y_i|X_i]-m(X_i))^2\\
                        &=& V[Y_i] +  (E[Y_i|X_i]-m(X_i))^2 \tag{5}
\end{eqnarray}
}

左辺は平均二乗誤差(mean squared error)です。E[Y_i|X_i]がm(X_i)と等しくなるとき、平均二乗誤差はY_iの分散と等しくなります。定理2によると、CEFはX_iを所与としたとき、平均二乗誤差(Minimum Mean Squared Error;MMSE)を最小にするという意味で最も優れたY_iの推定量です。

定理3 Analysis of variance (ANOVA) theorem

 {
\begin{eqnarray}
V[Y_i] =V(E[Y_i|X_i]) + E[V(Y_i|X_i)] 
\end{eqnarray}}


V[・]は分散、V[Y_i|X_i]はY_iX_iの条件付き分散である。

定理1を用いて左辺を展開すると、


 {
\begin{eqnarray}
V[Y_i] &=&V(E[Y_i|X_i] + ε_i) \\
            &=&V(E[Y_i|X_i] ) + V(ε_i) \\
            &=&V(E[Y_i|X_i] ) + E[(ε_i - E[ε_i])^2] \\
            &=&V(E[Y_i|X_i] ) + E[(Y_i - E[Y_i|X_i])^2] \\
    &=&V(E[Y_i|X_i] ) + E[E[Y_i^2|X_i]-(E[Y_i|X_i])^2] \\
            &=&V(E[Y_i|X_i] ) + E[V(Y_i|X_i)] \tag{6}
\end{eqnarray}
}


定理3の結果を導出できました*2。2つめの等号は分散の加法性(定理1よりε_iX_iは独立であるため交差項(共分散)はなし)、4つ目の等号ではε_iの期待値ゼロの性質を用いています。

定理3(ANOVA)は不平等(inequality)の研究においても応用される考え方です。例えばX_iを労働者の特徴、Y_iを労働者の賃金としましょう。労働者の賃金の分散V[Y_i]を、異なるX_iを持つ労働者間の賃金のばらつき(V(E[Y_i|X_i]) と、同じX_iを持つ労働者内の賃金のばらつき(E[V(Y_i|X_i)])に分解することで、賃金のばらつき=格差の生まれるメカニズムやその是正策についての示唆が得られるのです。

終わりに・感想

今回の記事では回帰分析を理解する上で重要な条件付き期待値とその性質について扱いました。特に定理1,2は最小二乗法(Ordinary least square method)と密接に関連します。Angrist and Piscke(2008)の面白いところは、明示的にOLS問題によって回帰係数ベクトルを定義していない*3部分です。多くの計量経済学の教科書では、まずは誤差の二乗和の正規方程式を作り、それを最適化(1階微分)や平方完成によって回帰係数ベクトルを導出する、という流れですよね。

読んでいただいてありがとうございました。

*1:例えば男性と女性を含む母集団の賃金の平均値は、E[Y] = E[Y|X=man] \times \frac{man}{pop} + E[Y|X = woman] \times \frac{woman}{pop}と表されます。Yの期待値は、YXによる条件付き期待値の、Xの割合を元にした加重平均値の形になります。(3)において周辺分布がウェイトの役割を果たしています。

*2:他にも繰り返し期待値の法則と、分散の性質であるV(Y_i) = E[(Y_i)^2] - (E[Y_i])^2を用いて証明することもできます。

*3:もちろん最小二乗推定量という単語はたくさん出てきます。あくまで明示的には記載されていないという意味です。