Goodな生活

Goodな生活

それは、いきあたりばっちりな人生。being good and haphazard.

MENU

ざっくり理解するチェビシェフの不等式と大数の弱法則

はじめに

この記事ではチェビシェフの不等式(Chebyshev's inequality)大数の弱法則(Weak Law of Large Numbers:LLN)*1を扱います。内容の多くは東京大学出版の『統計学入門』第8章を参考にしています。チェビシェフの不等式を用いると、確率変数の従う確率分布(密度関数)が分からないときに、その変数のとりえる値におおよその目途を付けることができます。

次回の記事では中心極限定理について扱います。大数の弱法則中心極限定理も、「部分から全体を推測する」という計量経済学の方法論をサポートする重要な拠り所です。

チェビシェフの不等式の定義と証明

まずはチェビシェフの不等式の定義を確認します。Xを確率変数、\epsilonを任意の正の数としします。ここではμ=E(X),σ^2=V(X)です。

 {
\begin{eqnarray}
P(|X - \mu| \geqq \epsilon) &\leqq& \frac{\sigma^{2}}{\epsilon^{2}}  \tag{1} \\
P(|X - \mu| < \epsilon) &>& 1- \frac{\sigma^{2}}{\epsilon^{2}} \tag{2} 
\end{eqnarray}
}

(2)は(1)の左辺を変形して導出します。(1)の証明には確率変数Xの分散σ^2の定義を用います。ここではXを連続な変数だと仮定します。


 {
\begin{eqnarray}
\sigma^{2} &=& \int^{\infty}_{-\infty}(x-\mu)^{2}f(x)\:dx \\
&=& \int^{}_{|x-\mu|\geqq \epsilon} (x-\mu)^{2}f(x)\:dx + \int^{}_{|x-\mu|\leqq \epsilon} (x-\mu)^{2}f(x)\:dx \\
&\geqq& \int^{}_{|x-\mu|\geqq \epsilon} (x-\mu)^{2}f(x)\:dx \\
&\geqq&  \epsilon^{2}  \int^{}_{|x-\mu|\geqq \epsilon} f(x)\:dx \\
&=&  \epsilon^{2} P(|X-\mu|\geqq \epsilon) \tag{3} \\
\end{eqnarray}
}

(3)式の両辺を\epsilon^{2}で割ると(1)と等しくなり、チェビシェフの不等式を証明できました。この不等式が意味するのは、確率変数Xが母集団の平均μから外れる確率はせいぜい\frac{σ^2}{ε^2}以下、ということです。この不等式を応用することで、確率変数が母集団の平均からどれくらいの場所に位置するのか、おおよその目途を付けることができます。

また(3)で分散σ^{2} = 0のとき、\forall \epsilon > 0, P(|X-\mu| \geqq \epsilon) = 0が成り立ちます。当たり前ですが、ばらつきのない確率変数=つまり定数は母集団の平均と一致する、ということを表します。

チェビシェフの不等式で例題を解く

それではチェビシェフの不等式を使って『統計学入門』の例題を解いてみましょう。

【例題】平均E[X]=1と分散V[X]=\frac{1}{3}が与えられたとき、観察されたデータXが0から2の間に収まる確率はどれくらいか。


確率変数Xのとりえる範囲0 \leqq X \leqq 2の両辺から\mu = 1を引くと、-1 \leqq X - \mu \leqq 1、すなわち |X - \mu| \leqq 1となる確率を求めればよいと分かります。これを(2)に代入すると、


 {
\begin{eqnarray}
P(|X - \mu| \leqq 1) &>&1 - \left(\frac{1}{3}\right)\ = \frac{2}{3} \simeq 0.67 \tag{4} \\
\end{eqnarray}
}


求める確率は67%であることが分かりました。面白いのは、確率変数の分布(密度関数)が分からない場合であっても、平均と分散という統計量だけを使って、確率変数の取りえる範囲を求めることができる、という点です。

大数の弱法則

最後にチェビシェフの不等式の応用例として有名な、大数の弱法則を簡単に説明します。(1),(2)の確率変数Xを標本平均\overline{X}に置き換えてみましょう。ここではμ= E(\overline{X}), \frac{σ^{2}}{n} =V(\overline{X}) です。


 {
\begin{eqnarray}
P(|\overline{X} - \mu| \geqq \epsilon) &\leqq& \frac{1}{\epsilon^{2}}\frac{\sigma^{2}}{n} \tag{5}\\
P(|\overline{X} - \mu| < \epsilon) &>& 1-  \frac{1}{\epsilon^{2}}\frac{\sigma^{2}}{n} \tag{6}\\
\end{eqnarray}
}


(5)式の右辺はnが無限大に大きくなるにつれて、ゼロに収束します。つまりサンプルサイズが大きくなるにつれ、標本平均\overline{X}が真の平均から少しでも遠ざかる確率がゼロに近づきます。この収束を確率収束(convergence in probability)と呼びます。

大数の弱い法則は、サンプルサイズが十分に大きいとき、観察された標本平均を母集団の真の平均とみなしてよい、という考え方をサポートするものです。(5)には密度関数は登場せず、確率変数の分布がどんな形であれ成立します。この点はチェビシェフの不等式の便利な性質がそのまま応用されています。

参考文献

統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 発売日: 1991/07/09
  • メディア: 単行本

*1:確率収束の条件がより厳密な強法則もありますが、計量経済学の文脈では弱法則を扱うことが多いと思うので弱法則のみを扱います。