はじめに
この記事では2次元正規分布の密度関数と、2次元のうち1つの確率変数が与えられたときの条件付き確率分布の求め方について扱います。相関係数や回帰分析とも関連するトピックです。
まずは多次元正規分布から考える
2次元正規分布を扱う前に、まずは多次元の正規分布からスタートします。多次元の確率変数は必ずしもそれぞれが独立の確率分布に従う訳ではありません。例えば、確率変数の例としてテストの点数を考えます。ここでは次元の数=教科の数です。生徒にっては文系科目(国語や英語)は低得点だが理系科目(数学や理科)は高得点、というような傾向があると思われます。とすると、算数と理科のテスト点数には何らかの関連がありそうです。このように関連しあう多数の確率変数を仮定する正規分布を、多次元(多変量)正規分布(multidimensional normal distribution)と呼びます。
一般化します。連続確率変数 の次元正規分布の同時密度関数は以下のように表せます。
は連続確率変数 の平均、 は分散共分散行列(covariance matrix)と呼ばれるの対称行列です。 の対角成分には の分散、それ以外は共分散が含まれます。
ここではです。
2次元正規分布の導出
それでは(1)においての場合、つまり2次元正規分布の密度関数を導出しましょう。先に指数関数の中の の逆行列を計算します。
ここでは
は相関係数(correlation coefficient)と呼ばれ、標準偏差(分散の平方根をとったもの)と共分散を使って表します。指数関数の中の二次形式を計算すると、確率密度関数は次のような形になります。
指数関数の内側はを標準化した変数の楕円の方程式になっており、相関係数の大きさによって楕円の形が変化します。が大きくなるほど、楕円の形がよりシャープに(線形に近づく)なります。具体的な値をに代入して、楕円の振る舞いがどのように変化するかを確認しましょう。
グラフでみる2次元正規分布
相関係数のそれぞれの場合の、2次元正規分布から得られたデータ(実現値)の散布図です。ここでは単純化のためと仮定します。
相関係数の値が大きくなる=線形な関係性が強くなることが分かります。
同様に相関係数のそれぞれの場合の、2次元正規分布の確率密度関数を示します。
相関係数の値が大きくなるにつれて、2変数の関係が強くなり、密度関数の形がよりシャープになる様子が分かります。
2次元正規分布を使って「無相関なら独立」を示す
2つの確率変数に相関関係が存在しないとき、つまりのとき、2次元正規分布の密度関数はどのような形になるのでしょうか。
(5)にを代入すると、
(6)では、2次元正規分布の密度関数が2つの密度関数の積で表されています。これは2つの確率変数が無相関ならば独立であるという2次元正規分布に従う確率変数の重要な性質です。
条件付き確率分布の求め方 (パターン1)
最後に、2次元正規分布を使った条件付き確率分布(密度関数)の求め方を紹介します。条件付き確率分布とは、2つの確率変数のうち1つの確率変数が与えられたときの、もう片方の確率変数の条件付き分布です。ここでは2次元確率変数のうちが与えられたときのの分布を考えます。求め方は2パターンあります。まず密度関数を変形する方法です。
(5)の指数関数の中身を、でまとめた項と、その残りに分けます。
(7)より、の条件付き期待値はです。
これはをに回帰させる単回帰の式を使っても表すことができます。
(8)のは以下の単回帰の最小二乗推定量です。
(8)が意味するのは、が与えられたときのの条件付き期待値は、単回帰によって導出された予測値と等しくなるという性質です。
同じく(7)より、条件付き分散は、です。が所与(非確率変数)であるため、のばらつきであるは登場しません。
条件付き確率分布の求め方 (パターン2)
2つ目のパターンは、確率変数をそれぞれ標準化した確率変数を用いて、条件付きの平均と分散を求める方法です。
をそれぞれ標準化すると、
となるため、とおけば、の平均は、分散は
です。ここで(10)より、
です。(13)の両辺をで条件付けます。はどちらも確率変数であるため、条件付き期待値が両辺に登場します。の平均と分散は、
と求めることができました。
参考文献
確率密度関数を書くためのRのソースコードは三中信宏教授の作成されたものを参考にさせていただきました。
http://cse.naro.affrc.go.jp/minaka/R/R-binormal.html
読んでいただいてありがとうございました。