【Mostly Harmless Ch.3.4.2】非線形モデルと限界効果

はじめに

この記事ではTobitやProbit等の非線形モデルと限界効果（marginal effects）を扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.4.2"Limited Dependent Variables and Marginal Effects"を参考にしています。

はじめに
非線形モデルの回帰係数
OLS推定値と非線形モデルの限界効果
参考文献

非線形モデルの回帰係数

CPSのトップコーディング等のような本当の打ち切り（censoring）は稀であり、Tobitモデルを研究に応用できる余地は限られています。しかし断言は避けるべきです。実験の議論では、 $E[Y_i|D_i]$ は必ず $D_i$ の線形関数であるため回帰とCEFは同一、という点は妥当です。このCEFは、分布インディケーターの $1[Y_i > c]$ を含むいかなる $Y_i$ の関数に対しても線形です。実際に分析を行う上では、関心のある説明変数が必ずしもダミー変数であるとは限らず、通常CEFには追加の共変量があるため、その場合 $E[Y_i|X_i,D_i]$ はLDVについてはほぼ確実に非線形です。直感的には、予測された平均が従属変数の範囲に近づくにつれて、制限従属変数（Limited Dependent Variables ; LDV）のCEFの導関数が小さくなります（正規分布の累積密度関数が極端な値になるときにフラットになるイメージです）。

この結果は、共変量を持つLDVモデルでは、回帰はCEFに完全に当てはまる必要がないということを意味します。しかし、条件付き独立の仮定（Conditional Independent Assumption；CIA）が成立する場合、基礎となるCEFが因果的解釈（causal interpretation）を持つことは変わりません。そして、もしCEFが因果的解釈を持つならば、回帰も同様に因果的解釈を持つとも言えます。なぜなら回帰はCEFの最小平均二乗誤差（Minimum Mean Square Error；MMSE）の近似であるためです。さらに、共変量を持つLDVモデルが飽和している場合、回帰によって、処置群における処置効果（Treatment on the Treated；TOT）、平均処置効果（Average Treatment Effect；ATE）を推定できます。説明変数が連続変数または複数ある（重回帰の）場合、Ch.3.3.1で導出した、加重平均をとった導関数を推定できます。

しかし、我々は飽和回帰（saturated-covariate regression）の識別を行うのに十分なデータを持っていないことが多いです。したがって、このまま回帰を行うと、制限従属変数（LDV）の範囲の外側に予測値（fitted value）が発生してしまう可能性があります。この事実が一部の研究者を悩ませ、線形確率モデル（linear probability model）のレピュテーションを下げてきました。ProbitやTobitのような非線形モデルの魅力の1つは、LDVの範囲に則ったCEFを生成することです。Probit の予測値は常に0から1の間に収まり、Tobitの予測値は正の値です。したがって、非線形モデルが好まれるのは、単純に曲線の当てはまりがよいという理由かもしれません。

(グラフ挿入)

しかしながら、非線形モデルのアウトプットが有用であるためには、それを限界効果に変換する必要があります。限界効果（marginal effects）とは、非線形モデルの示唆する、条件付き期待値関数（Conditional Expectation Function；CEF）の平均的な変化です。限界効果なくして、従属変数への影響について説明することは困難です。関心のある説明変数（ダミー変数）を $D_i$ と仮定すると、母集団の平均限界効果は、以下のCEFの差分を取るか、

$\begin{eqnarray} E\{E[Y_i|X_i,D_i = 1]- E[Y_i|X_iD_i = 0] \} \tag{1} \end{eqnarray}$

もしくは導関数の期待値を取ることで計算できます。

$\begin{eqnarray} E\left\{ \frac{\partial E[Y_i|X_i,D_i]}{\partial D_i} \right\} \tag{2} \end{eqnarray}$

連続変数を扱う場合や重回帰の場合には導関数が多く用いられます。

OLSによる推定値は、TobitやProbitのような非線形モデルの限界効果とどの程度近しいものなのでしょうか。まずは限界効果を導出し、次いで実証分析の結果を例示します。共変量 $X_i$ をもつProbitモデルのCEFは以下のように表されます。

$\begin{eqnarray} E[Y_i|X_i,D_i] = Φ \left[ \frac{X_i'β_o^* + β_1^* D_i}{σ_v}\right]　\tag{3} \end{eqnarray}$

したがって差分の平均値は、

$\begin{eqnarray} E \left\{Φ \left[ \frac{X_i'β_o^* + β_1^*}{σ_v}\right] - Φ\left[ \frac{X_i'β_0^*}{σ_v} \right] \right\} \tag{4} \end{eqnarray}$

実際には、(4)は導関数で近似することができます。

$\begin{eqnarray} E \left\{ \left[ \frac{X_i'β_o^* + β_1^*}{σ_v}\right] \right\} \cdot \frac{β_1^*}{σ_v} \tag{5} \end{eqnarray}$

(6)は $Y_i$ の $D_i$ による条件付き期待値です。

$\begin{eqnarray} E[Y_i|D_i] = Φ\left[ \frac{β_0^*+β_1^* D_i}{σ} \right] [β_0^*+β_1^* D_i] + σ φ\left[ \frac{β_0^*+β_1^* D_i}{σ}\right] \tag{6} \end{eqnarray}$

(6)を共変量を用いて一般化すると、

$\begin{eqnarray} E[Y_i|X_i,D_i] = \left[ \frac{X_i'β_o^* + β_1^* D_i}{σ}\right] [X_i'β_0^* + β_1^* D_i] + σ φ \left[\frac{X_i'β_0^* + β_1^* D_i}{σ}\right] \tag{7} \end{eqnarray}$

Tobitの限界効果はほとんどの場合、平均導関数として簡単な式で示されます。

$\begin{eqnarray} E \left\{ φ\left[ \frac{X_i'β_o^* + β_1^* D_i}{σ}\right] \right\} \cdot β_1^* \tag{8} \end{eqnarray}$

(8)はTobitモデルの係数です。 $β_1^*$ は通常 $D_i$ の $Y_i$ に与える影響に比べて過大な値です。直観的には、潜在変数 $Y_i^*$ の線形モデルを所与とすると、 $D_i$ が1か0かスイッチするたびに、潜在結果（latent outcome）が変わってしまうためです。しかし真の $Y_i$ は変える必要がありません。多くの人にとってどちらにせよそれはゼロです。

OLS推定値と非線形モデルの限界効果

Angrist and Evans

下表は、女性雇用の回帰と非線形限界効果を比較したものです。推定値は、出生率の指標である労働時間（両方とも LDV）を用いています。この研究では、少なくとも 2 人の子供を持つ 21～35 歳の既婚女性を対象としています。出生可能性の変数は、2 人以上の追加出産を示すダミーか、出生数の合計で構成されています。共変量には、母親の年齢、第一子出生時の年齢、人種ダミー（黒人orヒスパニック）、学歴ダミー（高卒or大卒）。共変量モデルは飽和しておらず（追加の説明変数はあるが交差項はない）この例でのCEFは確実に非線形です。

（表）

Probitモデルにおけるダミー変数の限界効果は、2人以上の子供には無差別であることが分かります。これは下表の2,3,4列目で確認できます。各列の1行目は、1980年の全サンプルを用いて異なるモデルを推定した結果です。OLSにおける第三子に与える影響は $-0.162$ 、他方、Probitモデルにおける限界効果は $-0.163$ , $-0.162$ です。これらは第1のケースでは（4）を使って推定され、第2のケースでは、以下の式つまり処置群に対する限界効果（marginal effect on the treated）が使われます。

$\begin{eqnarray} E \left\{ Φ\left[ \frac{X_i'β_o^* + β_1^*}{σ}\right] - Φ\left[ \frac{X_i'β_0^*}{σ} \right] |D_i =1 \right\}　\tag{8} \end{eqnarray}$

Tobitモデルにおける限界効果もまた、区別ができないほどではないにしろ、対応するOLSの推定値と近い値が得られます。これは下表の5列目と6列目で見ることができます。例えば、第2列のTobitの推定値 $-6.56$ と $-5.87$ と-OLSの推定値 $5.92$ を比較してみると、Tobitの推定値は絶対値で10％大きいものの、この違いにさほど重要性はありません。残りの列では、OLSと、ダミー変数の代わりに出産の順序変数を用いた限界効果を比較しています。限界効果の計算には、導関数を用いています（MFXと表示）。ここでも、OLSと非線形限界効果の推定値は、ProbitとTobitの両方で類似しています。

Probitモデルでは、中間点においては非線形CEFがほぼ線形となるため、予測値（fitted value）が0.5に近い場合には、OLSに近い限界効果が得られると言われます。したがって、我々は、比較的高い就業率を持つ、30歳以上の大卒の非白人女性のうち第1子の出産が20歳以下だった人のサブサンプルを使って、OLSと限界効果の比較を再現しました。このグループの平均就業率は83％ですが OLSの推定値と限界効果は、再び類似しています。

なぜ、非線形モデルと限界効果を気にする必要があるのでしょうか。1つはStata等統計ソフトウェアのパッケージに組み込まれており、簡単に計算ができるため。限界効果の標準誤差を考えると問題が複雑になる。オッカムの剃刀の原理は「エンティティは不必要に増殖されるべきではない」と助言しています。Angus Deaton(1997)を引用し、Tobitモデルによって生成される非線形回帰関数について考えます。