線形回帰では直線による回帰しかできなかった一方、説明変数を変数変換したものを説明変数に加えることで非線形回帰ができる。
を変数変換したものを基底関数と呼ぶ。基底関数をたくさん使うことで説明変数をいくらでも増やすことができるが、過学習*1が起こる。そこで意味のない説明変数(基底関数)
の回帰係数
がゼロになるように工夫して推定する。
正則化
以下の非線形回帰モデルを想定する。
通常の残差平方和はであるが、以下のように罰則項(正則化項)を加える。
として、
(2)の最小化を行う。をゼロではない値に推定することにより、正則化項の影響で式全体の値が小さくならない。説明力の弱い説明変数
の係数
はゼロと推定されると期待できる。
は正則化パラメータと呼ばれ、罰則項に対するウェイトの重さを表す。
が大きいほど
をゼロにする力が大きい。また通常は定数項の
がなくなるように変形する。
lasso推定
とした
正則化による推定法をlasso推定といい、(3)を最小化する。
係数の推定値のうち多くがゼロとなる。この性質をスパース性という。
リッジ推定
とした
正則化による推定法をリッジ推定といい、(4)を最小化する。
(4)の正則化項はによって微分可能であり、線形回帰の最小二乗推定(正規方程式)とさほど変わらない。したがって線形回帰と同様に推定値がゼロになることは少ない。
Elastic Net推定
として、(5)を最小化する推定法。
のときlasso推定、
のときリッジ推定に一致する。
*1:過剰適合、オーバーフィッティングともいう