【Mostly Harmless Ch.3.1.4】飽和回帰モデル

はじめに

この記事では飽和モデル（Saturated Model）と主効果（Main Effect）について扱います。これは条件付き期待値関数（Conditional Expectation Function；CEF）が線形になる条件に密接に関係します。記事の内容の多くはJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.1.4” Saturated Models, Main Effects, and Other Regression”を参考にしています。

はじめに
飽和モデルによってCEFは線形になる
- 主効果と交差項
参考文献

飽和モデルによってCEFは線形になる

飽和（Saturated）や主効果（main effect）という用語は、元々は離散的な（0か1か）介入や処置の効果を検証するため、実験研究者の間で用いられていたものでした。

Saturated regression model （飽和回帰モデル）とは、離散説明変数を含み、かつ説明変数の取りうるすべての組み合わせを含むようなモデルを表します。

教育年数によって様々な値を取りうる説明変数の場合を考えましょう。各人の教育年数を $s_i = 0,1,2\cdots$ とし、 $d_{ij} =1[s_i =j$ ] 、つまり $d_{ij}$ を教育年数がj年のときに1をとるダミー変数だとします。飽和回帰モデルは以下のように表せます。ダミー変数の係数である $β_j$ は $j$ 年間の教育による賃金上昇効果を表します。

${ \begin{eqnarray} Y_i = α + β_1d_{1i} + β_2d_{2i} + \cdots + βd_{τi} + ε_i \tag{1} \end{eqnarray} }$

定数項 $α$ は教育年数がゼロ年の場合のダミー変数です。

${ \begin{eqnarray} α &=& E[Y_i|s_i=0] \\ β_j &=& E[Y_i|s_i =j] - E[Y_i|s_i=0] \\ &=& E[Y_i|s_i =j] -α　\tag{2} \end{eqnarray} }$

$j$ がどのような正の値をとったとしても、各 $j$ に対するパラメータ $β_j$ を含む限り、飽和回帰モデルの条件を満たします。重要な点ですが、飽和回帰モデルは条件付き期待値関数（CEF）と完全に一致（perfectly fit）します。なぜならCEFは飽和回帰モデルを構成するのに必要なダミー変数の線形関数であるためです。(2)を書き換えると、

${ \begin{eqnarray} E[Y_i|s_i =j] &=& α + β_j 　\tag{2*} \end{eqnarray} }$

左辺のCEFは回帰係数パラメータの和によって表すことができ、線形な関数です。これは以前の記事で扱った「CEFが線形であるとき、母回帰関数はCEFそのものになる」という線形CEF定理（The Linear CEF Theorem）の特殊ケースです。ここでの母回帰関数は(1)に相当します。線形CEF定理は過去の記事で扱いました。

主効果と交差項

例えば、従属変数を賃金とし、大卒者かどうかを示すダミー変数と性別を表すダミー変数を説明変数としてモデルに含めるとき、回帰式には定数項、大卒者ダミー、性別ダミー、最後に大卒者ダミーと性別ダミーの交差項を含めると飽和回帰モデルです。

ダミー変数の係数は主効果（main effect）、ダミー変数の積は交差項（interaction term）と呼ばれます。

ただし飽和回帰モデルのパラメーターの設定（parameterization）は他にもあります。例えば定数項を含まず、男性大卒ダミー、男性非大卒ダミー、女性大卒ダミー、女性非大卒ダミーの4つの項を含める場合も飽和回帰モデルです。*1

この問題を定式化しましょう。ここで $x_{1i}$ を大卒者ダミー、 $x_{2i}$ を女性ダミーとします。 $x_{1i}$ と $x_{2i}$ を所与としたCEFは4つの値を取りえます。これらのCEFを $α、β、γ、δ$ を使って表すと、

${ \begin{eqnarray} E[Y_i|x_{1i}=0,x_{2i}=0] &=& α \\ E[Y_i|x_{1i}=1,x_{2i}=0] &=& α + β \\ E[Y_i|x_{1i}=0,x_{2i}=1] &=& α + γ \\ E[Y_i|x_{1i}=1,x_{2i}=1] &=& α+ β+ γ +δ \tag{3} \end{eqnarray} }$

さらに4つのCEFをまとめて表すと、

${ \begin{eqnarray} E[Y_i|x_{1i},x_{2i}] = α + β+ γ +δ \tag{4} \end{eqnarray} }$

この場合、飽和回帰モデルは、以下のように表せます。

${ \begin{eqnarray} Y_i = α + βx_{1i}+ γx_{2i} +δ(x_{1i}x_{2i})+ ε_i \tag{5} \end{eqnarray} }$

また、複数の値をとりうる教育年数と性別ダミーを掛け合わせた飽和回帰モデルも作成することができます。 $τ$ 個の教育年数の主効果、1つの性別の主効果、 $τ$ 個の交差項を含みます。

${ \begin{eqnarray} Y_i = β_0 + \sum_{j=1}^{τ} β_jd_{ji} + γx_{2i} + \sum_{j=1}^{τ}δ_j(d_{ji} x_{2i})+ ε_i \tag{6} \end{eqnarray} }$

交差項の係数 $δ_j$ は、教育年数が賃金に及ぼす効果の男女差を表しています。(6)を重回帰で推定する場合は非常にたくさんのパラメータを推定することになりますが、CEFは $2(τ+1)$ 個の値をとります。

飽和回帰モデルはCEFと一致するため識別の出発点として考えるのは妥当だと言えます。しかし、同モデルでは非常に多くの交差項を含む場合があり、これらの係数（パラメータ）は分析上意味のない、または正しく推定ができない、といったものも多いのです。それゆえいくつかの交差項をモデルから除外します。教育年数と性別ダミーの交差項のない(6)は、単純な教育年数と性別の加法モデルです。これは大学卒業による賃金の引き上げ効果が男女で差がない場合の識別です。いずれにせよ教育年数の係数は、両性別における賃金の上昇幅の加重平均値です。

他方で、交差項を含むもののの、対応する主効果を除いたモデルはおかしな識別です。

${ \begin{eqnarray} Y_i = β_0 + γx_{2i} + \sum_{j=1}δ_j(d_{ji} x_{2i})+ ε_i \tag{7} \end{eqnarray} }$

(7)は学校教育が賃金の上昇をもたらす効果は女性に限定されると仮定してしまっています。

最後に重要な点ですが、飽和回帰モデルは従属変数 $Y_i$ の分布に関わらず、CEFに一致します。これは線形確率モデル（linear probability model）や制限従属変数モデル（limited dependent variable model；LDV model）*2にも当てはまる性質です。この点は別の記事で扱います。