Goodな生活

Goodな生活

データサイエンスと弦楽器を探究する

統計検定準1級:非線形回帰における正則化

線形回帰では直線による回帰しかできなかった一方、説明変数xを変数変換したものを説明変数に加えることで非線形回帰ができる。xを変数変換したものを基底関数と呼ぶ。基底関数をたくさん使うことで説明変数をいくらでも増やすことができるが、過学習*1が起こる。そこで意味のない説明変数(基底関数)φ_{k}(x)の回帰係数β_kがゼロになるように工夫して推定する。

正則化

以下の非線形回帰モデルを想定する。
 {\begin{eqnarray}
y_i &=& α + \sum_{k=1}^{m} β_k φ_k (x_i) + ε_i \tag{1}
\end{eqnarray}}
通常の残差平方和は\sum_{i=1}^{n} ε_i^{2}であるが、以下のように罰則項(正則化項)を加える。λ>0として、
 {\begin{eqnarray}
S(β_1,\cdots ,β_k) &=& \sum_{i=1}^{n} ε_i^{2} + λ \sum_{k=1}^{m} |β_k|^{p}  \tag{2}
\end{eqnarray}}
(2)の最小化を行う。β_kをゼロではない値に推定することにより、正則化項の影響で式全体の値が小さくならない。説明力の弱い説明変数θ_k(x)の係数β_kはゼロと推定されると期待できる。λ正則化パラメータと呼ばれ、罰則項に対するウェイトの重さを表す。λが大きいほどβ_kをゼロにする力が大きい。また通常は定数項のαがなくなるように変形する。

lasso推定

p=1としたL_1正則化による推定法をlasso推定といい、(3)を最小化する。
 {\begin{eqnarray}
\sum_{i=1}^{n} \left( y_i  -\sum_{k=1}^{m} β_k φ_k (x_i) \right)^2 + λ \sum_{k=1}^{m} |β_k|  \tag{3}
\end{eqnarray}}
係数の推定値のうち多くがゼロとなる。この性質をスパース性という。

リッジ推定

p=2としたL_2正則化による推定法をリッジ推定といい、(4)を最小化する。
 {\begin{eqnarray}
\sum_{i=1}^{n} \left( y_i  -\sum_{k=1}^{m} β_k φ_k (x_i) \right)^2 + λ \sum_{k=1}^{m} |β_k|^2  \tag{4}
\end{eqnarray}}
(4)の正則化項はβ_kによって微分可能であり、線形回帰の最小二乗推定(正規方程式)とさほど変わらない。したがって線形回帰と同様に推定値がゼロになることは少ない。

Elastic Net推定

0 \leq α \leq 1として、(5)を最小化する推定法。
 {\begin{eqnarray}
\sum_{i=1}^{n} \left( y_i -\sum_{k=1}^{m} β_k φ_k (x_i) \right)^2 + λ \sum_{k=1}^{m} \left(α|β_k| + (1-α)|β_k|^2\right)  \tag{5}
\end{eqnarray}}
α=1のときlasso推定、α=0のときリッジ推定に一致する。

参考

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

  • 発売日: 2020/03/11
  • メディア: 単行本(ソフトカバー)

*1:過剰適合、オーバーフィッティングともいう