はじめに
この記事は、平均への回帰(regression to the mean)を扱います。内容はJoshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Ch.3.4.3"Why is Regression Called Regression and What Does Regression-to-the mean Mean?"に依拠しています。
平均への回帰
統計学用語としての回帰(regression)は、元々はFrancis Galton(1886)の身長の研究に由来します。
Galton, F. (1886). Regression Towards Mediocrity in Hereditary Stature. The Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263. doi:10.2307/2841583
Galtonは、大まかに正規分布した親子の身長のデータを用い、両親の身長から得られる子供の身長のCEFは線形であり、パラメータは二変量回帰(bivariate regression)の傾きと切片で与えられることを指摘しました。身長は定常的な変数(stationary)、つまり変数の分布の経時的変化は少ないため、二変量回帰の傾きが相関係数と等しくなります。
Galtonの回帰式における唯一の説明変数は両親の身長、従属変数は子供の身長です。回帰係数(傾き)は、切片はです。しかし身長は世代間で変わるものではないため、との平均と分散は同じだと考えます。したがって、
は世代間の相関係数であり、は母集団の平均値です。これらにより線形なCEFが得られます。
両親の身長で条件付けた子供の身長は、両親の身長と母集団の平均身長の加重平均値です。したがって「平均値より身長の高い両親からは、彼らほど身長の高い子供が生まれない」ことが示されました。平均値より身長の低い両親の場合も同様です。Galtonはこの性質を"regression toward mediocrity in hereditary stature(遺伝的性質における凡庸への回帰)" と呼びました。今日の我々が平均への回帰(regression to the mean)と呼ぶものです。
多変量回帰の始まり
Galtonはチャールズ・ダーウィンの従弟であり、優生学(Eugenics Society)の創始者としても知られています。実際のところ、身長の研究は、より良い人間の創出という課題に由来したものでした*1。
Galtonはこの章のメイントピックである重回帰にはさほど関心を持ちませんでした。Galtonの研究における回帰は、静的な(定常的な)確率変数の分布の性質を扱ったもので、因果推論の域に踏み込んだ訳ではありませんでした。Galtonはラマルクの進化論を支持していたため、遺伝的な特徴は世代間で引き継がれない、と自分に言い聞かせていたためかもしれません。
統計的コントロール(statistical control)に回帰を使用できるという考え方は、George Udly Yule(1899)による貧困率の決定要因の研究に由来しています。
統計学者カール・ピアソンズの学生だったYuleは、Galtonの回帰係数は、LegendreとGaussによって導出された最小二乗正規方程式を解くことにより、多変量に拡張できることを示しました。Yuleのモデルは、英国における当該地域の人口増加率と年齢分布をコントロールし、ある地域の貧困率の変化を英国の貧困法の管理の変化で説明しようとしました。彼は、貧しい人々が貧しい家に移ることを要求せずに収入を提供するという救済が、それ自体がより高い貧困率に寄与しないかどうかに特に興味がありました。これは今日の我々の興味を引く、因果関係の質問です。
Yule, George Udny (1899) "An Investigation into the Causes of Changes in Pauperism in England, Chiefly During the Last Two Intercensal Decades (Part I.)," Journal of the Royal Statistical Society, 62, 249-295.
*1:ただし『Mostly Harmless Econometrics』の原文では科学のアイデアは研究者の政治的嗜好によって判断されるべきではないと明記されています。