2022/08/27 統計検定準1級の学習時に内容修正
線形回帰モデルの問題点
回帰モデルの説明変数の数が大きくなりすぎると、モデルが学習データに過度に適合する過学習*1が生じ、予測精度が下がることがある。また被説明変数と関係のない多くの説明変数がモデルに組み込まれることで、推定する係数に対する解釈が困難になる場合がある。非線形回帰の場合はを変数変換した基底関数を用いて同様の事項を説明できる。
過学習を避けるための方法
変数増減
個の説明変数のうち特定の集合を選定して回帰する方法。具体的にはステップワイズ法など。交差検証の結果により最もよい変数の組み合わせを選択する
縮小推定
個の説明変数の回帰係数を0に近づける方法。OLSでは誤差二乗和の最小化問題を解くことでの推定量を求めるが、このに制約をかけて縮小させる。Lasso(L1)、Ridge(L2)などの正則化は縮小推定の手法の1部である。交差検証により最もよいモデルを選択する
次元削減
の説明変数の線形結合によって少数個の説明変数を作成し、回帰する方法。
変数増減は得られた説明変数のうち特定のもののみを用いる方法であるのに対し、縮小推定と次元削減はすべての説明変数の情報を回帰に用いる。
正則化
OLSでは最小化問題の目的関数は、誤差項(残差)の平方和として表される。
として、(2)に罰則項(正則化項)を加えた(3)を、最小化問題の目的関数とする。
は正則化パラメータと呼ばれ、罰則項(正則化項)に対するウェイトの重さを表す。罰則項(正則化項)があるおかげで、OLSと比較し式全体の値が大きくなってしまう。これを小さくするために説明力の弱い説明変数の係数はゼロと推定する必要がある。(3)の罰則項をどのように仮定するかでいくつかの正則化の方法があり、代表的なものがL1正則化(lasso推定)とL2正則化(Ridge推定)である。
L1(Lasso)正則化とL2(Ridge)正則化
直感的に理解するため下記の図を用いる。2変数の線形回帰モデルを仮定し、学習データに対する誤差平方和(RSS)を最小にするようなの組み合わせを求める。
L1正則化の場合、(3)においてとした正則化項により(4)を最小化する。
上図のように正方形状の制約を満たしながらの組み合わせを求める。そのため正方形の四辺に接する形で最小化問題が解かれるため、は0になり、にのみ値が入る。多次元の場合、係数の推定値のうち多くがゼロとなり、この性質をスパース性という。
L2正則化の場合、(3)においてとした正則化項により(5)を最小化する。
こちらは円状の制約を満たしながらの組み合わせが決まるため、のどちらもゼロ以外の値が入る。つまりスパースにならない。また(5)の最小化問題を考えるとき、正則化項はによって微分可能であり、線形回帰の最小二乗推定(正規方程式)とさほど変わらない。推定値の一部がゼロになるL1正則化と比べると、L2正則化の方がOLSと近い値が得られる。
Elastic Net推定
L1正則化項とL2正則化項の線形結合を用いて表す方法もある。このときのの制約領域は、下図のようになる。
最小化問題の目的関数は、として、
となる。
のときL1正則化、のときL2正則化に一致する。
*1:過剰適合、オーバーフィッティングともいう