Goodな生活

経済学修士→環境コンサル→データサイエンス

確率分布の定義は教科書に載っていない

シグマインベストメントスクールの統計講座で聞いた興味深い話。
多くの統計学の教科書には確率分布の定義が書いていないらしい(なぜなら厳密な定義は数学的に難しいから)。

離散変数、例えば確率変数Xがサイコロの目だとすると、確率分布は確率変数Xと確率Pの表の形で表現される。

X 1 2 3 4 5 6
p \frac{1}{6} \frac{1}{6} \frac{1}{6} \frac{1}{6} \frac{1}{6} \frac{1}{6}


連続変数の場合、確率分布は確率変数X区間 a \leq X \leq bに含まれる確率P(a \leq X \leq b)を規定する関数。確率分布を表現(計算)する方法として、
X確率密度関数積分する、

 \int_a^{b} f_X(x)dx

Xの累積分布関数の差分を取る、

 P(X \leq b) - P(X \leq a) = F_X(b) - F_X(a)

の2通りの方法がある。ただし、これはどちらも確率分布の表現であって、定義ではない。

定義を理解するためには、ルベーグ測度を学ぶ必要があるけれど、少しオーバー。。