Goodな生活

経済学→環境コンサル→データサイエンティスト

【統計検定準1級】質的回帰

Logitモデル

線形回帰モデルの場合、量的変数であるy_iを予測するのに、y_iのとる値に制限がない。

 {\begin{eqnarray}
y_i &=& α + \sum_{k=1}^{m} β_k x_k \tag{1}
\end{eqnarray}}

y_iが0もしくは1の値をとる二値変数であり、y_iが1をとる確率を予測する場合、以下の構造をもつロジスティック回帰モデルを用いる。

 {\begin{eqnarray}
P(y_i = 1)&=& \frac{\exp(α + \sum_{k=1}^{m} β_k x_k)} {1 + \exp(α + \sum_{k=1}^{m} β_k x_k)} \tag{2}
\end{eqnarray}}

0<π<1として、y_iの期待値をπ=E[y_i]と仮定すると、ロジスティック回帰モデルは以下のように表すことができる。

 {\begin{eqnarray}
\log \frac{π}{1-π} &=& α + \sum_{k=1}^{m} β_k x_k  \tag{3}
\end{eqnarray}}

(3)の両辺の指数をとると、

 {\begin{eqnarray}
 \frac{π}{1-π} &=& \exp( α + \sum_{k=1}^{m} β_k x_k ) \\
                     &=& \exp( α + β_1 x_1 +  β_2 x_2 + \cdots + β_m x_m) \\
                    &=& e^{α} (e^{β_1})^{x_1} (e^{β_2})^{x_2} \cdots (e^{β_m})^{x_m} \tag{4}
\end{eqnarray}}


(4)の左辺はy_iのオッズと呼ばれる。x_k以外の値を固定した状態でx_kの値が1増えると、右辺全体の大きさはe^{β_k}増える。すなわち回帰係数β_kの値は説明変数x_kの変化がy_kのオッズに与える寄与度を表したものである。もちろん(3)を用いて対数オッズの推定量を表す、と説明することもできる。

Probitモデル

二値問題に関するもう一つの代表的なモデルがプロビットモデルである。標準正規分布の累積密度関数Φ(x)を用い、

 {\begin{eqnarray}
Φ(x) &=& \int_{-\infty}^{x} \frac{1}{\sqrt{2π}} e^{-\frac{1}{2}y^2}dy  \tag{5}
\end{eqnarray}}

 {\begin{eqnarray}
π = Φ(α + β_1 x_1 +  β_2 x_2 + \cdots + β_m x_m)  \tag{6}
\end{eqnarray}}

(6)という構造を仮定する。

プロビットモデルでは説明変数x_kの効果の大きさを、(6)の偏微分を用いて評価する。

 {\begin{eqnarray}
\frac{\partial π}{\partial x_k} &=& \frac{\partial Φ(α + β_1 x_1 +  β_2 x_2 + \cdots + β_m x_m)}{\partial x_j} \\
                                             &=& φ(α + β_1 x_1 +  β_2 x_2 + \cdots + β_m x_m) β_k
 \tag{7}
\end{eqnarray}}

ここでφは標準正規分布の確率密度関数である。

説明変数x_kが連続変数の場合、上述のような限界効果を求めることにより、P(y_i=1)がいくら増加するかが評価できる。一方、x_kが質的変数の場合、確率の推定値の差に注目することが多い。