Goodな生活

経済学→環境コンサル→データサイエンティスト

淡路(2009)『データ同化』練習問題1.1

淡路他(2009)「データ同化」の練習問題1.1を解いてみました。

解答例

[i]

推定値x^{\prime}_aは以下の式で表され、バイアスα_{1}ηをもつ。

x^{\prime}_a=α_1 x^{\prime}_1+(1-α_1)x_2=α_1 x_1+(1-α_1)x_2+α_{1}η \tag{1}

(a)

推定値x^{\prime}_aの誤差分散は、以下のように表される。x_1,x_2の誤差相関が0の仮定を用いた。


\begin{eqnarray}
{σ_a}^{\prime2}&=&E[(x^{\prime}_a-x_t)^2] \\

&=&E[\{α_1(x_1-x_t)+(1-α_1)(x_2-x_t)+α_{1}η\}^2]\\
&=&α^2_1E[ε^2_1] + (1-α_1)^2 E[ε^2_2] +α^2_{1}η^2 +2α_1(1-α_1)E[ε_{1}ε_{2}]+2(1-α_1)α_{1}η E[ε_{2}] + α^2_{2} η E[ε_{1}] \\
&=&α^2_1E[ε^2_1] + (1-α_1)^2 E[ε^2_2] +α^2_{1}η^2  \\
&=&α^2_1 σ^2_1 + (1-α_1)^2 σ^2_2 +α^2_{1}η^2\tag{2}
\end{eqnarray}

(2)を最小にするα_{1}を求める。(3)をα_{1}について解くと、


\begin{eqnarray}
\frac{\partial {σ_a}^{\prime2}}{\partialα_1} = 2α_1 σ^2_1 - 2(1-α_1)σ^2_2 + 2α_1 η^2 = 0  \tag{3}
\end{eqnarray}

最適な係数α_1が求まる。


\begin{eqnarray}
α_1 = \frac{{σ_2}^{2}}{{σ_1}^{2}+{σ_2}^{2}+η^2} \tag{4}
\end{eqnarray}


(1)よりx^{\prime}_aのバイアスはα_1 ηなので、これに(4)を代入すると具体的なバイアスが求まる。

(b)

(4)を(2)に代入すると、最適推定値x^{\prime}_aの誤差分散が求まる。



\begin{eqnarray}
{σ_a}^{\prime2} &=& \left(\frac{{σ_2}^{2}}{{σ_1}^{2}+{σ_2}^{2}+η^2}\right)^2 ({σ_1}^2 + η^2) + \left(\frac{{σ_2}^{2}}{{σ_1}^{2}+{σ_2}^{2}+η^2}\right)^2 {σ_2}^2 \\
&=& \frac{σ_2^2(σ_1^2 + η^2)\{σ_2^2 +( σ_1^2 + η^2)\}}{({σ_1}^{2}+{σ_2}^{2}+η^2)^2}\\
&=& \frac{σ_2^2(σ_1^2 + η^2)}{({σ_1}^{2}+{σ_2}^{2}+η^2)} \tag{5}
\end{eqnarray}

本文(1.11)式は

\begin{eqnarray}
{σ_a}^{2}&=&\frac{σ_1^{2} σ_2^{2}}{σ_1^2 + σ_2^2} \tag{6}
\end{eqnarray}

なので(5)と(6)の差分を計算すると、正の値になることが分かる。つまりx_aはバイアスを持つ推定値を用いて作った推定値であるため、そうではない場合に比べて誤差分散が大きくなる。

[ii]

x_1,x_2の誤差に相関がある(相関係数はμ)場合の最適推定値は、

(a)

x^{μ}_a=α_1 x_1+(1-α_1)x_2 \tag{7}

相関係数の定義より

\begin{eqnarray}
μ&=&\frac{Cov[ε_1,ε_2]}{\sqrt{V[ε_1]V[ε_2]}} \\
&=&\frac{E[ε_1,ε_2]}{\sqrt{E[ε^2_1]E[ε^2_2]}}\\
&=&\frac{E[ε_1,ε_2]}{σ_1 σ_2} \tag{8}
\end{eqnarray}

(7)の誤差分散(σ^μ_a)^2

\begin{eqnarray}
(σ^μ_a)^2&=&E[(x^{μ}_a-x_t)^2] \\

&=&E[\{α_1(x_1-x_t)+(1-α_1)(x_2-x_t)\}^2]\\
&=&α^2_1E[ε^2_1] + (1-α_1)^2 E[ε^2_2]  +2α_1(1-α_1)E[ε_{1}ε_{2}]\\
&=&α^2_1σ_1+ (1-α_1)^2 σ_2 +2α_1(1-α_1)μ σ_1 σ_2\tag{9}

\end{eqnarray}

(9)をα_1で微分して0と置く。


\begin{eqnarray}
\frac{\partial (σ^μ_a)^2}{\partialα_1} = 2α_1 σ^2_1 - 2(1-α_1)σ^2_2 + 2μ σ_1 σ_2 - 4 α^2_1 μ σ_1 σ_2 = 0 \tag{10}
\end{eqnarray}

(10)を解くと


\begin{eqnarray}
α_1 = \frac{σ^2_2 - μ σ_1 σ_2}{σ^2_1 -2 μ σ_1 σ_2 + σ^2_2 }
\tag{11}
\end{eqnarray}

(11)を(7)に代入すると最適推定値x^{μ}_aが得られ、

(11)を(9)に代入すると、誤差分散が得られる。

\begin{eqnarray}
(σ^μ_a)^2&=&(μ-1)^2 σ^2_1 σ^4_2 + 2(1-μ)  σ^3_1 σ^3_2 + (μ-1)^2 σ^4_1 σ^2_2 \tag{12}
\end{eqnarray}

(b)

μ=0.5のとき、(σ^μ_a)^2=13となり、μ=0.75のとき、(σ^μ_a)^2=5.25となりいずれも相関を考慮しない場合の誤差分散よりも値が大きくなる。

感想

誤差に関する不偏性(バイアス0)と無相関の仮定をリラックスした場合の推定値に関する問題。一変数なので丁寧に式展開すれば特段問題ない気がする。回帰分析を勉強したときによくやったような誤差項の仮定と推定量の話とよく似ている。