Goodな生活

経済学→環境コンサル→データサイエンティスト

ざっくり理解するチェビシェフの不等式と大数の弱法則

はじめに

この記事ではチェビシェフの不等式(Chebyshev's inequality)大数の弱法則(Weak Law of Large Numbers:LLN)*1を扱います。内容の多くは東京大学出版の『統計学入門]』第8章を参考にしています。チェビシェフの不等式を用いると、確率変数の従う確率分布(密度関数)が分からないときに、その変数のとりえる値におおよその目途を付けることができます。

チェビシェフの不等式とは

チェビシェフの不等式とは、ある確率変数Xの平均がμ、標準偏差がσと与えられたとき、Xμ±ε以上、以下となる確率を求めることができる。\epsilonを任意の正の数とします。ここではμ=E(X),σ^2=V(X)です。

 {
\begin{eqnarray}
P(|X - \mu| \geqq \epsilon) &\leqq& \frac{\sigma^{2}}{\epsilon^{2}}  \tag{1} \\
P(|X - \mu| < \epsilon) &>& 1- \frac{\sigma^{2}}{\epsilon^{2}} \tag{2} 
\end{eqnarray}
}

(2)は(1)の左辺を変形して導出します。
(1)の証明には確率変数Xの分散σ^2の定義を用います。


 {
\begin{eqnarray}
\sigma^{2} &=& \int^{\infty}_{-\infty}(x-\mu)^{2}f(x)\:dx \\
&=& \int^{}_{|x-\mu|\geqq \epsilon} (x-\mu)^{2}f(x)\:dx + \int^{}_{|x-\mu|\leqq \epsilon} (x-\mu)^{2}f(x)\:dx \\
&\geqq& \int^{}_{|x-\mu|\geqq \epsilon} (x-\mu)^{2}f(x)\:dx \\
&\geqq&  \epsilon^{2}  \int^{}_{|x-\mu|\geqq \epsilon} f(x)\:dx \\
&=&  \epsilon^{2} P(|X-\mu|\geqq \epsilon) \tag{3} \\
\end{eqnarray}
}

(3)式の両辺を\epsilon^{2}で割ると(1)と等しくなり、チェビシェフの不等式を示すことができます。不等式の意味は、確率変数Xが母集団の平均μから外れる確率はせいぜい\frac{σ^2}{ε^2}以下です。不等式を応用して、確率変数が母集団の平均からどれくらいの離れた場所に位置するのか、目途を付けることができます。

また(3)で分散σ^{2} = 0のとき、\forall \epsilon > 0, P(|X-\mu| \geqq \epsilon) = 0が成立します。当たり前ですが、確率変数Xにばらつきはない(つまり定数)場合、母集団の平均と一致します

例題を解く

『統計学入門』の例題を解きます。

平均E[X]=1と分散V[X]=\frac{1}{3}が与えられたとき、観察されたデータXが0から2の間に収まる確率はどれくらいか。


確率変数Xのとりえる範囲0 \leqq X \leqq 2の両辺から\mu = 1を引くと、-1 \leqq X - \mu \leqq 1、すなわち |X - \mu| \leqq 1となる確率を求めればよいと分かります。これを(2)に代入すると、


 {
\begin{eqnarray}
P(|X - \mu| \leqq 1) &>&1 - \left(\frac{1}{3}\right)\ = \frac{2}{3} \simeq 0.67 \tag{4} \\
\end{eqnarray}
}


求める確率は67%だと分かりました。面白いのは、確率変数の分布(密度関数)が分からない場合であっても、平均と分散という統計量だけを使って、確率変数の取りえる範囲を求めることができる点です。

大数の弱法則

チェビシェフの不等式の応用例である大数の弱法則を簡単に説明します。(1),(2)の確率変数Xを標本平均\overline{X}に置換します。ここではμ= E(\overline{X}), \frac{σ^{2}}{n} =V(\overline{X}) です。


 {
\begin{eqnarray}
P(|\overline{X} - \mu| \geqq \epsilon) &\leqq& \frac{1}{\epsilon^{2}}\frac{\sigma^{2}}{n} \tag{5}\\
P(|\overline{X} - \mu| < \epsilon) &>& 1-  \frac{1}{\epsilon^{2}}\frac{\sigma^{2}}{n} \tag{6}\\
\end{eqnarray}
}


(5)式の右辺はnが大きくなるにつれて、ゼロに収束します。つまりサンプルサイズが大きくなるにつれ、標本平均\overline{X}が真の平均から少しでも遠ざかる確率がゼロに近づきます。この収束を確率収束(convergence in probability)と呼びます。

大数の弱い法則は、サンプルサイズが十分に大きいとき、観察された標本平均を母集団の真の平均とみなしてよい、という考え方をサポートするものです。(5)には密度関数は登場せず、確率変数の分布がどんな形であれ成立します。この点はチェビシェフの不等式の便利な性質がそのまま応用されています。

参考文献

*1:確率収束の条件がより厳密な強法則もありますが、計量経済学の文脈では弱法則を扱うことが多いと思うので弱法則のみを扱います。