Goodな生活

経済学修士→環境コンサル→データサイエンス

最尤推定量とクラメール・ラオの不等式

統計検定1級の学習メモです。

最尤推定

確率密度関数f_X(x|θ)をもつ母集団から得られた、n個の標本X_1, X_2,\cdots X_nに対して、



\begin{eqnarray}
L(θ|X) &=& f_{X_1}(x_1|θ)f_{X_2}(x_2|θ) \cdots f_{X_n}(x_n|θ) \\
&=& \prod_{i=1}^n  f_X(x_i |θ) \tag{1}
\end{eqnarray} 

を尤度関数(likelihood function)*1という。尤度関数を最大にするようなθ = \hat θ最尤推定量(maximum likelhood estimator)と呼ぶ。

(1)では因果関係に注意したい。本来は母集団のパラメータθありきで確率分布の形が決まり、標本X_1, X_2,\cdots X_nが生起する。しかし、ここでは標本X_1, X_2,\cdots X_nが生起したのは、それらが得られる確率が最大だったから、だと考える。得られる確率が最大となるとき、θL(θ|X)の最大化問題の解となるので、


\begin{eqnarray}
\frac{\partial}{\partial θ}L(θ|X)=0 \tag{2}
\end{eqnarray} 

を満たす。θ=(θ_1,\cdots,θ_k)であり、\frac{\partial}{\partial θ_i}L(θ_1,\cdots,θ_k|X)=0,  i = 1,\cdots,kの解が最尤推定量の候補となる。これらの連立方程式をコンピュータを使って数値的に解く。しかし一般に尤度関数は複雑な形になるため、その対数をとり、


\begin{eqnarray}
l(θ|X) = \sum_{i=1}^n \log f_X(x_i|θ) \tag{3}
\end{eqnarray} 

最適化問題を解く。対数関数は単調増加であるため、(3)を最大にするθは同じく(1)を最大にするθである。

クラメール・ラオの不等式と有効推定量

スコア関数とフィッシャー情報量

X = (X_1, X_2, \cdots ,X_n )確率密度関数f(x|θ)からランダムに抽出された標本とする。簡略化のためθは一次元のパラメータとする。Xの同時確率密度関数f_n(x|θ)とすると、f_n(x|θ) = \prod_{i=1}^n f(x_i|θ) と表せる。ここで


\begin{eqnarray}
S_n(θ,X) = \frac{d}{dθ} \log f_n(X|θ) \tag{4}
\end{eqnarray}

スコア関数とする。スコア関数の2乗の期待値


\begin{eqnarray}
I_n(θ) &=& E[{S_n(θ,X)}^2] \\ 
          &=& E\left[ \left\{\frac{d}{dθ} \log f_n(X|θ) \right\}^2 \right] \tag{5}
\end{eqnarray}

フィッシャー情報量という。

フィッシャー情報量の性質

X = (X_1, X_2, \cdots ,X_n )がランダム標本であるとき、n個のフィッシャー情報量は、1個のフィッシャー情報量のn倍になる
(5)より


\begin{eqnarray}
I_n(θ) &=& E\left[ \left\{\frac{d}{dθ} \log f_n(X|θ) \right\}^2 \right] \\
          &=& E\left[ \left\{\frac{d}{dθ} \log \prod_{i=1}^n f_n(X_i|θ) \right\}^2 \right] \\
          &=& E\left[ \left\{ \sum_{i=1}^n  \frac{d}{dθ} \log  f_n(X_i|θ) \right\}^2  \right] \\
          &=& \sum_{i=1}^n E\left[   \left\{\frac{d}{dθ} \log f_n(X_i|θ) \right\}^2 \right] \\
          &=& \sum_{i=1}^n I_1(θ) = nI_1(θ) \tag{6}
\end{eqnarray}

つまりI_n(θ) = nI(θ)が成り立つ。

クラメール・ラオの不等式

大数の法則より、サンプルサイズ(標本数)を大きくしていくと不偏推定量は母パラメータに近づく。推定量の分散が小さければ小さいほど収束が早くなるので望ましい統計量と言える。以下のクラメール・ラオの不等式(Cramer-Rao's Inequality)により、不偏推定量の中で分散の下限が分かり、下限を満たす推定量が最小分散推定量(UMVU:Uniformly minimum variance estimator)となる。

T_nを母集団θの不偏推定量だとすると、以下の不等式が成立する。


\begin{eqnarray}
V(T_n) \geq \frac{1}{E \left[\frac{\partial}{\partial θ}(\log L)^2 \right]}  &=& \frac{1}{V\left[\frac{\partial}{\partial θ}(\log L) \right]} \\
&=& \frac{1}{nI_n(θ)} \tag{1}
\end{eqnarray}


不偏推定量の分散には下限が存在し、下限を達成する((1)で等号が成立する)推定量は、有効推定量(つまり最小分散推定量)である。I_n(θ)はフィッシャー情報量と呼ばれる。

不等式の証明

母集団からのn個の標本とその実現値(確率変数ではなくデータ)をX_1 = x_1,X_2 = x_2,\cdots, X_n = x_nとする。尤度関数を



\begin{eqnarray}
L(x_1,x_2,\cdots,x_n|θ) = f_X(x_1)f_X(x_2) \cdots f_X(x_n) \tag{2}
\end{eqnarray}

とする。

密度関数の性質により、


\begin{eqnarray}
1 &=& \int_\mathbb{R}  f_X(x_1)dx_1 \cdots \int_\mathbb{R} f_X(x_n) dx \\
   &=& \int  \cdots \int_\mathbb{R} L(x_1,x_2,\cdots,x_n|θ) dx_1 \cdots dx_n \tag{3}
\end{eqnarray}

両辺をθ微分すると、


\begin{eqnarray}
0 &=& \int  \cdots \int_\mathbb{R} \frac{\partial}{\partial θ} L(x_1,x_2,\cdots,x_n|θ) dx_1 \cdots dx_n \\
   &=& \int  \cdots \int_\mathbb{R} \left(\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right) L(x_1,x_2,\cdots,x_n|θ) dx_1 \cdots dx_n \\
   &=& E\left[ \frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right] \tag{4}
\end{eqnarray}

T_nθの不偏推定量なので、


\begin{eqnarray}
θ &=& E[T_n(X_1,\cdots X_n) ] \\
   &=& \int \cdots \int T_n(X_1,\cdots X_n)  L(x_1,x_2,\cdots,x_n|θ) dx_1 \cdots dx_n \tag{5}
\end{eqnarray}

両辺をθ微分すると、



\begin{eqnarray}
1 &=& \int \cdots \int T_n (X_1,\cdots X_n) \frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ) L(x_1,x_2,\cdots,x_n|θ)dx_1 \cdots dx_n \\
 &=& E\left[T_n(X_1,\cdots X_n) \frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)  \right] \tag{6}
\end{eqnarray}

(6)からθを(4)に掛けたものを引くと、



\begin{eqnarray}
1 &=& E\left[T_n(X_1,\cdots X_n) \frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)  \right] - θ E\left[\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ) \right] \\
   &=& E\left[(T_n(X_1,\cdots X_n)  - θ) \frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ) \right] \\
   &=& E\left[(T_n(X_1,\cdots X_n)- E[T_n])(\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ) - E\left[\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right]\right] \\
   &=& Cov\left[T_n(X_1,\cdots X_n), \frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right] \tag{7}
\end{eqnarray}

コーシーシュヴァルツの不等式より、


\begin{eqnarray}
1^2 &=& \left\{Cov[T_n(X_1,\cdots X_n), \frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)]\right\}^2 \\
       &\leq& V[T_n(X_1,\cdots X_n)] V\left[\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right] \\
       &=& E[(T_n - θ)^2] E\left[\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)^2\right] \tag{8}
\end{eqnarray}

したがって、


\begin{eqnarray}
V[T_n] \geq \frac{1}{ E[(\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ))^2]} \tag{9}
\end{eqnarray}


が成立する。E\left(\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right) = 0より、(9)の分母は、


\begin{eqnarray}
E\left[\left(\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right)^2\right]
&=&V\left[\frac{\partial}{\partial θ} \log L(x_1,x_2,\cdots,x_n|θ)\right] \\
&=& n V\left[\frac{\partial}{\partial θ} \log L(x_1)\right] \\ 
&=&n I_n(θ) \tag{10}
\end{eqnarray}

これでクラメール・ラオの不等式が証明された。

参考

*1:確率密度関数が離散、連続の場合のいずれも同様の形となる。