フィッシャーの線形判別関数は、青(1群)と赤(2群)から観測されたデータを、変数の線形結合で表される軸上へ射影し、それぞれの群の分離度を表す群間分散と、各群内のデータのばらつき度合いを示す郡内分散の比を最大にする軸(直線)を最適な射影軸とする関数を構成した。ここではデータと各群を代表する平均ベクトルとの距離を定義し、距離の小さい方に判別する方法を示す。
マハラノビスの距離
1次元のマハラノビスの距離
データを1次元(青(1群)のデータは個、赤(2群)のデータは個)とする。新しいデータが得られたときに、がそれぞれの群の平均のどちらに近いかを考える。図1の青線・赤線はそれぞれ1群・2群の分布(密度関数)を表す。線形判別関数はとなり、この関数の正負だけが問題になる。
ただし単純な距離だけでは不適切は判別となる可能性がある。においては青線(1群の密度関数)の値と比較して赤線(2群の密度関数)は値が大きいため小さくないためは1群よりも2群に属する可能性が高い。しかしは2つの群の平均の中間に位置するため、各群の平均からの距離は等しい。つまりどちらの群とも判別がつかない。これは1群と2群の密度関数の形状(分散)が異なるため生じる。そこで各群のデータを標準化し、平均0、分散1に揃えた上で、平均からの距離で判別する。
図2は標準化したデータの密度関数。は赤(2群)の平均により近いことがわかる。このときの青(1群)、赤(2群)それぞれの平均と分散*1は次のように表され、
次のをと1群、2群とのマハラノビスの距離という。言い換えれば各群でデータを標準化したものの絶対値である。
判別方法は、マハラノビスの距離が小さい方の群に判別する。ならばは1群に判別、なら2群に判別する。あるいはが正なら1群に判別、負なら2群に判別と考えてもよい。
多次元のマハラノビスの距離
考え方は1次元の場合と同じ。各群の平均は平均ベクトルに、分散は分散共分散行列に変わる。1群の平均ベクトルを、分散共分散行列をとする。2群の平均ベクトルを、分散共分散行列をとする。と各群の多次元のマハラノビスの距離は
この距離が小さい方に判別する。は
マハラノビスの距離と線形判別関数の関係
1群と2群の分散共分散行列が全体の分散共分散行列に等しいとき()、マハラノビスの距離による判別はフィッシャーの線形判別関数を使った判別と同じ結果になる。(7)(8)の二乗を取り、分散共分散行列をに代えると
(10)-(11)は
フィッシャーの線形判別関数は
なので、(12)はちょうどフィッシャーの線形判別関数の2倍になる。したがってフィッシャーの線形判別関数の正負による判別とマハラノビスの距離によるの正負の判別の結果は等しい。
*1:実際の計算には標本分散を用いるため分母はと。多次元の場合の分散共分散行列も同様