Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す

【Mostly Harmless Ch.3.4.1】重み付け回帰

はじめに

この記事では重み付け回帰(加重回帰;weighting regression)を扱います。詳細には踏み込まず、簡単な説明に留めます。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.4.1"Weighting Regression"を参考にしています。

重み付け回帰の経験則

最もシンプルな重み付けの考え方は、推定する回帰(the regression you are estimating)と推定したい母関数(the population target you are trying to estimate)が等しくなるように、説明変数に重みを付けるというものです。例えば、推定対象(estimand)が母回帰関数であり、推定に用いられる標本が、標本iが生起する確率の逆数と等しい重みw_iをもつ場合、w_iによって重みを付けた加重最小二乗法(weighted least squares;WLS)を使用することができます。確率の逆数による重み付けにより、推定に用いる標本が確率変数ではない場合にも、一致推定量を得ることができます。

関連する重み付けの考え方として、グループ化されたデータが挙げられます。β=E[X_{i}X'_{i}]^{-1}E[X_{i}Y_{i}]を推定するため、Y_iからX_iへの回帰を行うと仮定します。しかし手元には確率分布より得られた標本(マイクロデータ)ではなく、X_iでグループ化されたデータがあります。したがって、すべてのxについてE[Y_i|X_i=x]の推定値を求めることになります。この平均を\overline{y}_xxの相対度数(relative frequency)n_x / Nと仮定します。Ch.3.1.2で確認したようにn_xで重みづけた\overline{y}_xからxへの回帰は、マイクロデータを用いた回帰と同じ推定量が得られます。したがって、マイクロデータを用いた回帰分析を行う場合、グループサイズで重みを付けた回帰を行っても同じ推定が可能です。ただし、一人当たり所得等の公開データつまり平均値を使用し、基礎となるマイクロデータを無視することに慣れているマクロ経済学者は、この考えに反対し、重み付けを行わない集計データの分析を好むその分野の慣行を守るかもしれません。

不均一分散への対処としての重み付け

その一方で、重み付けの根拠が不均一分散(heteroskedasticity)への対処である場合、計量経済学者もマクロ経済学者ほど重み付けを好意的に用いる訳ではありません。不均一分散下での重み付けの議論は大雑把には以下のようなものです。線形CEF、E[Y_i|X_i]=X_i'βに関心があるとします。誤差項e_i=Y_i-X_i'βは不均一です。つまり条件付き分散E[e_i^2|X_i]は定数ではありません。この場合、母回帰関数は依然としてE[X_{i}X'_{i}]^{-1}E[X_{i}Y_{i}]と等しいものの、標本対応(sample analogue)は効率的ではありません(inefficient)。より正確な線形CEFの推定量は、条件付き分散の逆数の推定値で重みを付けた加重最小二乗法によって得られます。

Ch.3.1.3で説明した通り、生来的に(inherently)不均一分散となるのは、Y_iがダミー変数である線形確率モデル(Linear Probability Model;LPM)の場合です。CEFが線形だと仮定することで、飽和回帰モデル(saturated)であるかのように扱うことができ、P[Y_i=1|X_i]=X'_{i}β、したがってE[e_i^2|X_i]=X'_{i}β(1-X'_{i}β)となり、条件付き分散がX_iの関数となることは明らかです。これは条件付き分散の推定量が回帰関数から簡単に算出できる場合です。LPMにとっての効率的なWLS推定量は、一般化最小二乗問題(GLS)の特殊ケースであり、条件付き分散の逆数[X'_{i}β(1-X'_{i}β)]^{-1}によって重み付けされます。

なぜ不均一分散の対処にWLSを用いることが望ましくないのか

この議論は不均一分散頑健標準誤差(heteroskedasticity-consistent standard errors)を用いる場合にも当てはまります。まず初めに、E[e_i^{2}|X_{i}]の推定値はあまり良くない場合があります。 条件付き分散モデルが不十分な近似である場合、またはその推定値が非常にノイズが多い場合*1、重み付き最小二乗推定値は、重み付けされていない推定値よりも効率が悪くなる可能性があります。したがって、漸近理論に基づいた統計的推論は誤解を招く可能性があり、効率は向上しない場合があります。第二に、CEFが線形でない場合、重み付き最小二乗推定量は、重みなしの推定量よりもCEFを推定する可能性が低くなります。一方で、重みなしの推定量は、比較的解釈が簡単です。それは母集団CEFに対するMMSE(最小二乗平均誤差)線形近似だからです。

WLS推定量も近似であるものの、その性質は重みに依存します。少なくともこの重みにより、回帰結果を他の研究者の結果と比較することが難しくなり、結果の違いが重みに由来する場合は追加的な調査が必要になります。最後に、古い警告が思い浮かびます”if it ain’t broke, don't fit "。母回帰ベクトルの解釈は不均一分散によって変わるものではないのに、なぜそれを心配するのでしょうか。重み付けによる効率の向上はささいなものである可能性が高く、良いことよりも害を及ぼすことがあります。

補足説明

条件付き分散の逆数で重みを付けると、なぜ効率的な推定量が得られるのでしょうか。以下、山本(1995)に倣って簡単に説明します。分散の逆数で重みを付けた加重最小二乗和は、


\begin{eqnarray}
\sum_{i=1}^{N} \frac{1}{σ_i^2}(Y_i - α - βX_i)^2         \tag{1}
\end{eqnarray}

です。この加重最小二乗和を最小にするということはつまり、次の式の誤差項\frac{e_i}{σ_i}の二乗和の最小を求めることです。


\begin{eqnarray}
\frac{Y_i}{σ_i} = α\frac{1}{σ_i} + β\frac{X_i}{σ_i} + \frac{e_i}{σ_i}      \tag{2}
\end{eqnarray}

\frac{e_i}{σ_i}は平均0、分散σ_iに従う変数であるため、均一分散を持ちます。


\begin{eqnarray}
E \left[ \frac{e_i}{σ_i} \right] = 0     \tag{3} \\
V \left[ \frac{e_i}{σ_i} \right] =1     \tag{4}
\end{eqnarray}

ただし、この不均一分散の対処法は、あらかじめσ_i^2が既知である場合のみ使える方法であることは注意するべきです。

*1:LPMでは、これはCEFが実際に線形ではないことを意味する場合があります