Goodな生活

Goodな生活

それは、いきあたりばっちりな人生。being good and haphazard.

MENU

【Mostly Harmless Ch.3.4.3】平均への回帰

はじめに

この記事では、回帰の言葉由来や、平均への回帰(regression to the mean)を扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.4.3"Why is Regression Called Regression and What Does Regression-to-the mean Mean?"に依拠しています。

平均への回帰

回帰(regression)という言葉は、元々はFrancis Galton(1886)の身長の研究に由来します。大まかに正規分布した親子の身長のデータを用いて研究を行ったGaltonは、両親の身長から得られる子供の身長のCEFは線形であり、パラメータは二変量回帰(bivariate regression)の傾きと切片で与えられることを指摘しました。身長は定常的な変数(stationary)、つまり変数の分布の経時的変化は少ないため、二変量回帰の傾きは相関係数でもあり、0と1の範囲をとる変数です。

Galtonのセットアップにおける単一の説明変数x_iは両親の身長、従属変数Y_iは子供の身長です。回帰係数(傾き)はβ_1=\frac{Cov(Y_i,x_i)}{V(x_i)}、切片はα=E[Y_i]-β_1 E[X_i]です。しかし身長は世代間で変わるものではないため、x_iY_iの平均と分散は同じだと考えます。したがって、



\begin{eqnarray}
β_1 = \frac{Cov(Y_i,x_i)}{V(x_i)} = \frac{Cov(Y_i,x_i)}{\sqrt{V(x_i)} \sqrt{V(x_i)}} = ρ_{xy} \tag{1} 
\end{eqnarray}


\begin{eqnarray}
α=E[Y_i]-β_1 E[X_i] = μ(1-β) = μ(1-ρ_{xy})\tag{2} 
\end{eqnarray}


ρ_{xy}は世代間の相関係数であり、μ=E[Y_i]=E[x_i]は母集団の平均値です。これらにより線形なCEFが得られます。



\begin{eqnarray}
E[Y_i|x_i]= μ(1-ρ_{xy}) + ρ_{xy} x_i\tag{3} 
\end{eqnarray}

両親の身長で条件づけた子供の身長は、両親の身長と母集団の平均身長の加重平均値なのです。したがって身長の高い両親からは、平均すると彼らほど身長の高い子供が生まれません。身長の低い両親の場合も同様です。Galtonはこの性質を"regression toward mediocrity in hereditary stature(遺伝的性質における凡庸への回帰)" と呼びました。今日の我々が平均への回帰(regression to the mean)と呼ぶものです。

回帰分析の始まり

Galtonはチャールズ・ダーウィンの従弟であり、優生学(Eugenics Society)の創始者としても知られています。実際のところ、身長の研究は、より良い人間の創出という課題に由来したものでした。本書では科学のアイデアは研究者の政治的嗜好によって判断されるべきではないと結論付けています。

Galtonはこの章のメイントピックである重回帰にはさほど関心を持ちませんでした。Galtonの研究における回帰は、静的な(定常的な)確率変数の分布の性質を扱ったもので、因果推論の域に踏み込んだ訳ではありませんでした。Galtonはラマルクの進化論を支持していたため、遺伝的な特徴は引き継がれない、と自分に言い聞かせていたのではないでしょうか。

統計的コントロール(statistical control)に回帰を使用できるという考え方は、George Udly Yule(1899)による貧困率の決定要因の研究に由来しています。統計学者カール・ピアソンズの学生あったユールは、Galtonの回帰係数は、LegendreとGaussによって導出された最小二乗正規方程式を解くことにより、多変量に拡張できることを示しました。Yules(1899)の論文は、多変量回帰推定を含む最初の出版物のようです。彼のモデルは、英国における当該地域の人口増加率と年齢分布をコントロールし、ある地域の貧困率の変化を英国の貧困法の管理の変化で説明しようとしました。彼は、貧しい人々が貧しい家に移ることを要求せずに収入を提供するという救済が、それ自体がより高い貧困率に寄与しないかどうかに特に興味がありました。これは今日でもまだ私たちの興味を引く、因果関係の質問です。

最後に、回帰の歴史はSteven Stigler(1986)の本で詳しく説明されています。スティグラーはシカゴ大学で有名な統計学者ですが、父親である経済学者でノーベル賞受賞者のジョージ・スティグラーほど有名ではありません。

参考文献

Mostly Harmless Econometrics: An Empiricist's Companion

Mostly Harmless Econometrics: An Empiricist's Companion