条件付き確率とベイズの定理
ベイズ判別の基本的な考え方はベイズの定理に基づく。例えばある患者の発熱という症状について風邪かインフルエンザのどちらの原因で生じたかを判断したいとする。ここで風邪が原因である確率がインフルエンザが原因である確率よりも高ければ、患者の発熱の原因は風邪だと判断することができる。これを条件付き確率を用いて表すと、
ただし。
、は風邪とインフルエンザの相対頻度であり、発熱という結果を前提としないため事前確率と呼ばれる。発熱という結果が生じる確率は事前確率と条件付き確率を用いて
と表せる。求めたいのは発熱が風邪とインフルエンザそれぞれが原因となって生じた確率であり、発熱という結果を条件付けた、原因が生じる確率である。このままだと原因と結果の時系列が逆になっているため、事前確率のおよび条件付き確率のから求める。事象を与えたときの条件付き確率は、
分子には(1)の関係を、分母には(2)を代入すると、ベイズの定理が得られる。
条件付き確率は、結果が生じた後に得られる確率であるため事後確率と呼ばれる。ベイズの定理は、事後確率を、事前確率と原因で条件付けた結果が生じる確率(条件付き確率)で表すもの。原因が複数ある場合は以下のように定式化される。
正規分布のベイズ判別
個体を特徴づけるp個の確率変数をとし、2つの群からそれぞれn個のp次元データが観測されたとする。
学習データとは別に新たにp次元のデータが観測されたとき、それが各群に属する事後確率を元に、いずれの群に属するかを判別する。そのためベイズの定理を適用し、確率分布モデルを用いて事後確率を表現し、線形および2次判別方法を構成する。
確率分布モデルを通して判別方式を構築するため、群から採られた学習データの分布はp次元正規分布に従うとする。
確率モデルを導入することであるデータが群に属すると仮定したとき、の各群における相対的な出現度合い(もっともらしさ)を多次元正規分布の確率密度関数で表せる。の条件付き確率や尤度と表現することもできる。実際に出現度合いを数値化するためには(7)の密度関数に含まれるパラメータ()を推定する必要がある。の最尤推定量を、それぞれ観察された標本平均ベクトルと標本分散共分散行列によって求める。
これをp次元正規分布の密度関数に代入する。
この密度関数を用いて、ベイズの定理を適用し判別方式を構築する。
判別関数
ベイズの定理を使って判別関数を構築するため、判別したデータを結果、2つの群を原因とする。データを観測したときの事後確率を求め、事後確率の大きい方の群にデータは属すると考える。これを事後確率の比に基づくベイズ判別という。
両辺の対数をとって次のようにも表せる。
ベイズ判別法の構成に必要な事後確率は次のように求める。
は観測されたデータがに属すると仮定したときの相対的な出現確率を表し、これを学習データを用いて推定したp次元正規分布の確率密度関数を用いて推定する。
これを用いると(10)、(11)の対数の中身は次のように書き換えられる。
データが各群に属する事前確率は等しいと仮定する*1。
(11)は、推定されたp次元正規分布の密度関数の比によるベイズ判別法を構成する。
(16)の密度関数を詳しく書くと、
となり、確率変数の2次式となることから2次判別関数と呼ばれる。なら多次元のマハラノビス距離を使った正負の判別と一致する。またのとき、でマハラノビス距離による判別と一致する。さらにフィッシャーの線形判別関数の正負とも一致する。
*1:各群のデータ数に対してと推定することもできる