Goodな生活

Goodな生活

2017年、新卒で民間シンクタンク入社。学んだこと、考えたことの記録。

MENU

ざっくり理解する中心極限定理

はじめに

この記事では中心極限定理(central limit theorem ; CLT)を扱います。仮説検定はもちろん統計的推論(statistical inference)の大前提となる重要な定理です。内容の一部を東京大学出版の『統計学入門』の第8章を参考にしています。CLTにも研究者によるバリエーションや付随する条件など色々ありますが、細かい事項には踏み込みません。

定義の確認と大数の法則との違い

まずはCLTの定義を確認しましょう。


 {
\begin{eqnarray}
\lim_{n \to \infty} P\left(a \leqq \frac{X_1+X_2+\cdots + X_n - n\mu}{\sqrt{n}\sigma}\leqq b \right) = \int_a^b \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} dx \tag{1}
\end{eqnarray}
}

(1)の左辺はある確率の収束先を示しています。ある確率とは、確率変数の和を標準化した値がある範囲を取りえる確率です。右辺は標準正規分布の密度関数です。機械的に説明すると、サンプルサイズが十分に大きいとき、確率変数の和を標準化した確率変数は標準正規分布に従うことを示しています。サンプルサイズ(sample size)とは、ざっくり言うと1回の標本抽出で得られるデータの数です。サンプルサイズが大きい、とは同じ母集団から抽出する標本の数が大きいということです。標準正規分布は、平均0、分散1に従う確率変数の分布です。この定理が成立すると、何の役に立つのでしょうか。

前回の記事大数の弱法則は、標本平均が母集団の平均に収束することを示すものでした。一方、CLTは、確率分布の和の形が正規分布の形に収束することを示すものです。どちらも確率変数の収束に関する性質であり、前者は確率収束(convergence in probability)、後者は分布収束(convergence in distribution)*1と呼ばれます。大数の法則の「母集団の平均に収束する」という収束に比べ、CLTは正規分布の形を取りながら母集団の平均に収束する、より厳密な収束の条件を確率変数に課すものです。

証明

それではCLTを証明しましょう。まず確率変数X_iを標準化した変数Y_iを考えます。X_iはそれぞれが独立に同一の分布に従うと仮定します。


 {
\begin{eqnarray}
Y_1=\frac{X_1 - \mu}{\sigma}, Y_2=\frac{X_2 - \mu}{\sigma}, \cdots ,  Y_n=\frac{X_n - \mu}{\sigma}\tag{2}
\end{eqnarray}
}

ここではi \in \left\{1,...,n\right\}に対しE(Y_i)=0V(Y_i)=1です。


(2)のうち1つのY_iモーメント母関数(moment generating function)*2M_{Y_i(t)} = E(e^{tY_i})とします。ここでT = \frac{Y_1 + Y_2 + \cdots + Y_n}{\sqrt{n}}とすると*3Tのモーメント母関数は、Y_1, Y_2, \cdots ,Y_nの積となります。


 {
\begin{eqnarray}

M_T\left(\frac{t}{\sqrt{n}}\right) &=& E\left(e^{tT}\right) \\
           &=& E\left(e^{t\frac{(Y_1 + Y_2 + \cdots + Y_n)}{\sqrt{n}}}\right) \\
           &=& E\left(e^{\frac{t}{\sqrt{n}}Y_1}\right) E\left(e^{\frac{t}{\sqrt{n}}Y_2}\right) \cdots E\left(e^{\frac{t}{\sqrt{n}}Y_n}\right) \\
           &=& \left\{M_Y\left(\frac{t}{\sqrt{n}}\right)\right\}^n \\
           &=& \left\{M_Y(0) + M_Y(0)^{\prime} \left(\frac{t}{\sqrt{n}}\right) + M_Y(0)^{\prime\prime} \frac{ \left(\frac{t}{\sqrt{n}}\right)^2}{2} + o\left(\frac{1} 
                     {n}\right)\right\}^n \\
           &=& \left\{1 + \left(\frac{t^2}{2n} \right)+ o\left(\frac{1}{n}\right)\right\}^n \\
           &\rightarrow& e^{\frac{t^2}{2}}   \left(n \rightarrow \infty\right) \tag{3} \\
\end{eqnarray}
}

(3)より、標準化された確率変数Tは、標準正規分布に分布収束します。(3)の途中式ではテイラー展開と、以下の指数関数の性質を用いています。

 {
\begin{eqnarray}
\lim_{n \to \infty} \left(1+\frac{1}{n}\right)^n &=& e \\
\lim_{n \to \infty} \left(1+\frac{t^2}{2} \frac{1}{n}\right)^n &=& e^{\frac{t^2}{2}} \tag{4} \\
\end{eqnarray}
}

興味深いのは、確率変数X_iの従う分布について何の仮定も置かれていない点です。つまりどんな分布に従う確率変数であっても、たくさん観察して標準化してプロットすれば、正規分布(に近しい分布)を描ける、ということです。回帰分析の標準的仮定*4の1つに、『誤差項が正規分布に従う』というものがあります。これをサポートするのがCLTです。

イメージで理解する

CLTをイメージを使って理解します。確率 p=0.2、サンプルサイズ(試行回数) n=10の二項分布に従う確率変数を仮定します。確率変数の平均は np = 2、分散は np(1-p) = 1.6 です。標準化した確率変数のヒストグラムに、平均0、分散1の標準正規分布の密度関数を重ねて表示します。中心極限定理が成立するならば、サンプルサイズが大きくなるにつれて、確率変数のヒストグラムは標準正規分布に近い形になると予想されます。以下、サンプルサイズを100,1000,10000とした場合の図を示します。

f:id:good_na_life:20200220233035p:plain
サンプルサイズ100(筆者作成)

f:id:good_na_life:20200220233111p:plain
サンプルサイズ1000(筆者作成)

f:id:good_na_life:20200220233128p:plain
サンプルサイズ10000(筆者作成)

確かに、サンプルサイズが大きくなるに従い、確率変数のヒストグラムは、より標準正規分布に近い形となることが分かります。

終わりに・感想

理解が及んでいない点は「CLTの証明に確率変数の標準化が必要条件なのかどうか」です。標準化の理由が、モーメント母関数を導出する上での数学的な操作のしやすさ、だけならば、確率変数の和の形のままでも正規分布のモーメント母関数に収束するはずです。別の証明の形があるのかどうか、気になっているところです。

参考文献

統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 発売日: 1991/07/09
  • メディア: 単行本
社会科学のためのデータ分析入門(下)

社会科学のためのデータ分析入門(下)

*1:法則収束(converge in law)とも呼ばれます

*2:積率母関数とも言います。連続微分可能な関数であり、マクローリン展開によって確率変数の階乗の期待値を算出できます。平均や分散を求めるのにも使われます。

*3:分母にある\sqrt{n}は、確率変数の和を考えるとき、標準偏差\sqrt{n}に比例するためです。

*4:単回帰モデルに課せられる仮定です。最小二乗推定量に関する記事で簡単に触れています。