Goodな生活

Goodな生活

2017年、新卒で民間シンクタンク入社。学んだこと、考えたことの記録。

MENU

【統計検定準1級】自己回帰(AR)モデル(2018年6月過去問)

はじめに

この記事では代表的な時系列モデルであるARモデルについて扱います。統計検定準一級の2018年6月の過去問を解きながら理解を深めます。

目次

ARモデル

自己回帰(Autoregressive;AR)モデルは現在の値を過去の値に回帰させるモデルです。p期前までの値に回帰させる場合は「p次のARモデル」と呼び、AR(p)と表記します。ここでは以下のAR(1)を所与とします。



\begin{eqnarray}
u_{t+1} =α u_t + ε_{t+1} \,\, (t=1, \cdots ,T-1)\tag{1} 
\end{eqnarray}


αtに依存しないパラメータであり、異時点間のu_tに一定の規則性が生じます。ここでε_t\mathcal{N}(0,σ^2) に従うホワイトノイズであり、|α| < 1であるため、u_1,u_2, \cdots, u_Tは定常性を満たします。

ホワイトノイズ

ホワイトノイズとは、平均0、分散σ^2、すべての自己共分散が0である誤差項です*1

定常性

平均、分散、自己共分散が以下の3式を満たすとき、(1)は定常性(stationarity)という性質を持ちます。



\begin{eqnarray}
E[u_{t+1}] &=&μ < \infty \tag{2} \\ \\
Var[u_{t+1}] &=& E[(u_{t+1} - μ)^2] \\ 
      &=& γ(0) <  \infty \tag{3} \\ \\
Cov[u_{t+1},u_{t+1-s}] &=&  E[(u_{t+1} - μ)(u_{t+1-s}-μ)] \\ 
&=& γ(s) \tag{4} 
\end{eqnarray}


ここで重要なのは(2)(3)(4)のいずれも、時間tに依存しない点です。平均や分散はすべてのu_{t+1}について共通であり、自己共分散は2時点の差sのみに依存します。

|α| < 1は定常性の条件です。この条件の意味を確認します。(1)の右辺のu_tを書き直すと、


\begin{eqnarray}
u_{t+1} &=&α u_t + ε_{t+1} \\ 
            &=&α(α u_{t-1} + ε_{t})+ ε_{t+1}  \\ 
            &=& α^2 u_{t-1} + αε_{t} + ε_{t+1} \tag{5}
\end{eqnarray}


この代入を繰り返すと、



\begin{eqnarray}
u_{t+1} &=& \sum_{i=0}^{k} α^i ε_{t+1-i} + α^{k+1} u_{t-k} \tag{6}
\end{eqnarray}


k \rightarrow \inftyとすると、第2項はゼロに収束するため



\begin{eqnarray}
u_{t+1} &=& \sum_{i=0}^{\infty} α^i ε_{t+1-i} \tag{7}
\end{eqnarray}


ここでAR(1)モデルは移動平均(Moving Average;MA)モデルの1種として表されます。
(7)の平均、分散、自己共分散を計算*2します。



\begin{eqnarray}
E[u_{t+1}] &=& \sum_{i=0}^{\infty}α^i E[ε_{t+1-i}]\\
                   &=& 0 \tag{8} \\ \\ 
Var[u_{t+1}] &=& E\left[\sum_{i=0}^{\infty}α^i ε_{t+1-i} \right]^2  \\
&=& \sum_{i=0}^{\infty}α^{2i} E[ε_{t+1-i}]  \\
&=& \frac{σ^2}{1-α^2} \tag{9} \\ \\ 
Cov[u_{t+1},u_{t+1-s}] &=&  E\left[\left\{\sum_{i=0}^{\infty}α^i ε_{t+1-i}\right\} \left\{\sum_{i=0}^{\infty}α^i ε_{t+1-s-i}\right\} \right] \\
&=& \frac{σ^2α^s}{1-α^2} \tag{10} 
\end{eqnarray}


仮に|α| \geq 1の場合、(9)の分散は発散してしまいます。また(10)の自己共分散は時間とともに増大し、やはりこちらも発散します。したがって|α| < 1は定常性の条件であり、定常性とはAR(1)モデルが一定の平均、分散、自己共分散をもたらすための必要十分条件です。

自己相関と偏自己相関

自己相関

自己相関(auto-correlation)は自己共分散を分散で割った値であり、時系列版の相関係数です。



\begin{eqnarray}
ρ(s) &=& \frac{Cov[u_{t+1},u_{t+1-s}]}{Var[u_{t+1}]} \\ 
       &=& \frac{γ(s)}{γ(0)} \tag{11}
\end{eqnarray}


定義によって



\begin{eqnarray}
ρ(0) &=& 1\tag{12} 
\end{eqnarray}

\begin{eqnarray}
 {-1} < ρ(0) <1 \tag{13} 
\end{eqnarray}

を満たします。

sの値を変化させるとコレログラム(correlogram)を描くことができます。

偏自己相関

(1)はu_{t+1}u_{t}の関係を表すモデルですが、(5)で見たようにu_{t+1}u_{t-1}も関係があります。u_{t+1}u_{t}の自己相関が高ければ、当然u_{t+1}u_{t-1}の自己相関も高くなると予想できます。ここで知りたいのは、u_{t}には含まれないu_{t-1}固有の要因とu_{t+1}と関係しているかどうかです。これを調べるためにはu_{t}の影響を除去した上で、u_{t+1}u_{t-1}の関係を調べる必要があります。これが偏自己相関(partial autocorrelation)の考え方です。

一般化すると、k期離れたu_{t+1}u_{t-k+1}の偏相関係数φ_{kk}は、途中のu_{t},u_{t-1},\cdots,u_{t-k+2}の影響を取り除いた上での、u_{t+1}u_{t-k+1}の線形関係の強さを示す指標です。

相関係数は、自己相関ρ(s)を用いた連立方程式を立て、



\begin{eqnarray}
φ_{11} = ρ(1) \tag{14} 
\end{eqnarray}



\begin{pmatrix}
1 & ρ(1) \\
ρ(1) & 1 
\end{pmatrix}
\begin{pmatrix}
φ_{21} \\
φ_{22} 
\end{pmatrix}
=
\begin{pmatrix}
ρ(1) \\
ρ(2) \tag{15} 
\end{pmatrix}



\begin{pmatrix}
1 & ρ(1) & ρ(2) \\
ρ(1) & 1 & ρ(1) \\
ρ(2) & ρ(1) & 1 
\end{pmatrix}
\begin{pmatrix}
φ_{21} \\
φ_{22} \\
φ_{23}
\end{pmatrix}
=
\begin{pmatrix}
ρ(1) \\
ρ(2)\\ 
ρ(3)  \tag{16} 
\end{pmatrix}



\begin{pmatrix}
1 & \rho (1) & \cdots & \rho (k-1) \\ \rho (1) & 1 & \cdots & \rho (k-2) \\ \vdots & \vdots & \ddots & \vdots \\ \rho (k-1) & \rho (k-2) & \cdots & 1
\end{pmatrix}
\begin{pmatrix}
\phi_{k1} \\ \phi_{k2} \\ \vdots \\ \phi_{kk}
\end{pmatrix}
=
\begin{pmatrix}
\rho (1) \\ \rho (2) \\ \vdots \\ \rho (k) 
\end{pmatrix}
\, \, (k \leq 3)\tag{17}

第k番目の解φ_{kk}を求めればよい。

Rで可視化

Rのデフォルト時系列データである「BJsales」と「Nile」を使って、自己相関(コレログラム)と偏自己相関のグラフを描きます。

f:id:good_na_life:20200823170602p:plain
f:id:good_na_life:20200823170617p:plain

図中の青の破線は自己相関係数、偏自己相関係数が0である帰無仮説に対する有意水準5%の両側検定の臨界点です。

過去問解答

[3]標本統計量の性質

x_{1},x_{2},\cdots,x_{10}\mathcal{N}(μ,σ_u^2) にi.i.dする確率過程です。その平均は、\overline{x} = \frac{1}{10} \sum_{i=1}^{10} x_i とする。y_tは、


\begin{eqnarray}
y_{t} = μ + u_{t} \,\, (t=1, \cdots ,T-1)\tag{18} 
\end{eqnarray}

とし、その平均は\overline{y_T} = \frac{1}{T} \sum_{i=1}^{T} y_t とする。

それぞれの平均は、


\begin{eqnarray}
E[\overline{x}] &=& μ \\
E[y_{t}] &=& μ + E[u_{t}] \\
              &=& μ
\end{eqnarray}

となり不偏性を満たします。したがって②⑤は誤りです。

それぞれの分散は、


\begin{eqnarray}
Var[\overline{x}] &=& \frac{1}{T} σ_u^2 \\
Var[y_{t}] &=& μ + E[u_{t}] \\
              &=& μ
\end{eqnarray}

*1:回帰モデルに登場する正規分布にi.i.dする誤差項と同じ性質です

*2: (8)はE[u_{t+1}]=αE[u_t]+E[ε_{t+1}]を、(9)はV[u_{t+1}]=α^2V[u_t]+V[ε_{t+1}]を解くことによっても求まります。