Goodな生活

Goodな生活

2017年新卒で民間シンクタンク入社。学んだこと、読んだもの、考えたことの記録

【読書メモ No.11】教養としてのアート 投資としてのアート

教養としてのアート 投資としてのアート

教養としてのアート 投資としてのアート

きっかけ

先輩に勧めてもらったもの。6月末まで無料で全文が公開されている。240ページとそこまで分量がないのでさらっと読める。

tagboat.tokyo

メモ

あるところでは、世界のメガギャラリーをはじめ、ユダヤ系のギャラリーや美術関係者が業界を牛耳っているという噂もあります。金融市場をつくったロスチャイルド家やダイヤモンド市場をつくったユダヤ人は取扱う商品の付加価値をマーケットを利用してつくっていくことに長けた才能をもっています

例えば、アートの売買手数料はオークションハウスだと15~20%もするため、仮に金融商品の手数料を3%としてみると、5倍以上高く、短期間で売買すると逆に損をしてしまうからです。つまり、アートは長期的な投資でしか利益を得ることが難しいため、短期で資産を増やしたいと考える投資家には不向きなのです。

現代のアートが21世紀に入って以前より多岐にわたり、その文脈だけで作品を語ることはほぼ不可能に近くなっています。だからこそ多くの作品を観ることで、その作品が発明品であるかどうか、インパクがどの程度大きいかを感覚的に説明できる知見が重要となっているのです。

成功要因については、作品の特徴というよりもアーティスト個人の性格の特徴に由来することのほうが多いです。それはざっくりと以下の3点に要約されます。

・貪欲さがある
・地頭がよい
・出会いをつなげる

感想

題名にもある通り教養本として読むのには良いと思う。現代アーティストや関連政策等は度々TOEFLの題材として取り上げられている。ただし具体的な作品の解説やアート一般の干渉方法についての説明ではない。また資産価値を裏付けるデータ(オークションの結果等)もない。

アーティストと投資家の関係は、まさに起業家とエンジェル投資家のそれをもって例えられると思う。ならば画商・ギャラリーは卸業者か。だからこそ画廊やギャラリー、展示会のビジネスモデルを詳しく知りたかった。これは海外・国外はもちろん、地域によっても違うのだと思う。例えば銀座なんかはどうなのだろう。アーティストが場所代を払って作品を展示させてもらい、もし買い手が見つかれば画商・ギャラリーに手数料が入るという仕組みか。書いては見る分には無料。作品の値段はどのように決まるのか。工数か、サイズか、材料費(粗利)か、何点売れば生活が成り立つのか、とても興味が湧く。

資産運用の手段として作品を購入するならば、感性で作品を選んではいけない、と本文にあった。この考えには相容れないかな。というより自分が投資を含む資産運用全般に興味を持てないだけかもしれない。好きな絵を見て感動できるならそれでいいやんという感じ。

【読書メモ No.10】砂の女

砂の女 (新潮文庫)

砂の女 (新潮文庫)

きっかけ

先輩に勧められたもの。
安部公房は高校生のときの現代文の教科書に載っていた「赤い繭」以来。

メモ

砂の不毛は、ふつう考えられているように、単なる乾燥のせいではなく、その絶えざる流動によって、いかなる生物をも、一切受け付けようとしない点にあるらしいのだ。年中しがみついていることばかりを強要し続ける、この現実のうっとうしさとくらべて、なんという違いだろう。たしかに、砂は、生存には適していない。しかし、定着が、生存にとって、絶対不可欠なものかどうか。定着に固執しようとするからこそ、あのいとわしい競争もはじまるのではなかろうか?もし、定着をやめて、砂の流動に身をまかせてしまえば、もはや競争もありえないはずである。現に、沙漠にも花が咲き、虫やけものが住んでいる。強い適用能力を利用して、競争圏外に逃れた生き物たちだ。

砂のがわに立てば、形あるものは、すべて虚しい。確実なのは、ただ、一切の形を否定する砂の流動だけである。

人生に、よりどころがあるという教育の仕方には、どうも疑問でならないんですがね・・・つまり、無いものをですね、あるように思いこませる、幻想教育ですよ。だから砂が固体でありながら、流体力学的な性質を多分にそなえている、その点に非常に興味を感じるんですがね・・・けっきょく世界は砂みたいなものじゃないか・・・砂ってやつは、静止している状態じゃ、なかなかその本質はつかめない・・・砂が流動しているのではなく、実は流動そのものが砂だという・・・

あの穴の生活と、この風景とを、対立させて考えなければならない理由はどこにもない。美しい風景が、人間に寛容である必要など、どこにもありはしないのだ。けっきょく、砂を定着の拒絶だと考えた、おれの出発点に、さして狂いはなかったことになる。1/8m.mの流動・・・状態がそのまま存在である世界・・・この美しさは、とりもなおさず、死の領土に属するものなのだ。

感想

社会的な地位や名誉や、なんでもいいけれど、本来流動的であるものに楔を打とうとしてうまくいかずにもがく人間を皮肉しているように思えた。

作者は定住社会について鋭い問いを投げかける。狩猟採集の暮らしを捨て、農耕民族として「定住」することが競争を生んでしまう。食料供給を安定させるための試みがかえって逃れられない競争へと人間を引きずりおろしてしまう。『暇と退屈の倫理学』では、暇や退屈の起源は定住生活の開始による余剰時間の現れだと述べられている。余暇があるために、競争が生まれ、富の格差が広がる。

競争がデフォルトである社会に生まれると、そこに定着するために色んな仕組みにしがみつく。住所、職業、学校、会社、資格。そこには始原的な意味での「適応能力」はすでにない。

【統計検定準1級】ブラウン運動

はじめに

この記事では、ブラウン運動のさわりについて扱います。統計検定準1級の出題範囲のうち、確率過程の基礎に該当するトピックです。

小項目 項目例
確率過程の基礎 ランダムウォーク、ポワソン過程、ブラウン運動

ブラウン運動とは

回帰分析における誤差項は、それぞれ独立に同一の確率分布に従うと仮定しました。これに対し、確率過程は時間とともに観測される確率変数の列、を意味します。ブラウン運動(Brownian motion)は、確率過程の1種であり、もともとは英国の植物学者ブラウンによって命名された微粒子(花粉粒子)の不規則な運動に由来します。その後、数学者ウィーナーが数学面を研究したため、別名ウィーナー過程とも呼ばれます。

ブラウン運動を定義します。
連続時間の確率過程\{B_t\}, t \geq 0を考えます。

確率過程\{B_t\}が次の条件を満たすとき、ブラウン運動である

  1. B_0 = 0
  2. B_t (\geq 0)は確率1で連続。
  3. 区間が重ならない変化分(増分)は独立。すなわち、任意の 0 \leq s \leq t \leq s' \leq t' に対して、B_t - B_sB_{t'} - B_{s'}は独立になる
  4. 任意の0 < s < tに対して、B_t - B_s \sim \mathcal{N}(0,t-s)となる*1
  5. 任意の0 < tに対して、B_t \sim \mathcal{N}(0,t)となる

3.の性質は独立増分性、4.の性質は定常増分性と呼ばれます。独立増分性は、重ならない時間幅(1点のみ共有することは問題ない)に起こったそれぞれの変化分は無関係である、ことを意味します。例えば今月の残業時間の変化分と先月の残業時間の変化分は無関連です。ただし、値の変化分が無関係なのであって、2つの値B_t, B_sは無関係ではなく、増減の傾向をもつ場合もあります。増減の傾向を除けば、大小の互いに時間に無関連な、無数の原因(個別の、ランダムなショック)による変化が現在まで積み重なり、このランダムな変化は4.の定常増分性により正規分布をなし、その変化分の大きさは経過時間に比例する、これがブラウン運動です。

ブラウン運動の性質

定義より、平均と分散は、


 {
\begin{eqnarray}
E[B_t] = 0 \tag{1} \\
V[B_t] = σ^2 t \tag{2} 
\end{eqnarray}
}


共分散は、0 < s \leq tにおいて、


 {
\begin{eqnarray}
Cov[B_s,B_t] &=& E[(B_s -E[B_s])(B_t-E[B_t])] \\
                      &=& E[B_{s} B_{t}] \\
                       &=& E[B_{s}(B_t -E[B_s] + E[B_t])] \\
                      &=& E[B_s(B_t-E[B_t])] + E[B^2_s] \\
                      &=& E[B_s]E[(B_t-E[B_t])] + σ^2 s \\
                      &=& σ^2 s \tag{3}
\end{eqnarray}
}


です。B_s, B_tは無関係ではないことが分かります。一般的に共分散は、


 {
\begin{eqnarray}
Cov[B_s,B_t] &=& σ^2 \min \{s,t\}   \tag{4}
\end{eqnarray}
}


です。B_s, B_t相関係数

 {
\begin{eqnarray}
ρ &=& \frac{Cov[B_s,B_t]}{\sqrt{V[B_s] V[B_t]}} \\
   &=& \frac{σ^2 s}{σ^2 \sqrt{st}}  \\
   &=& \sqrt{\frac{s}{t}} \tag{5}
\end{eqnarray}
}


です。stに近づくにつれて、ρ1に近づきます。

したがって2時点のブラウン運動の組み合わせ(B_t, B_s)は、平均(0, 0)、分散(σ^2 s, σ^2 t)相関係数ρ=\sqrt{\frac{s}{t}}の2次元正規分布に従います。多変量正規分布では無相関と独立に区別はありません*2先ほどはB_s, B_tは無関係、という言葉を使いましたが、無相関と独立のどちらの意味でもあてはまります。

感想

対数正規分布、ブラック=ショールズモデルの導出もやりたかったですが、確率微分方程式周り、まだ理解が追い付いていません。これらは別の記事で扱いたいです。それからRのパッケージ(sde)を使ってブラウン運動のシュミレーションもやってみたかったのですが、うまくインストールできませんでした。これも別の機会に。。。

読んでいただきありがとうございました。

参考文献

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

  • 発売日: 2020/03/11
  • メディア: 単行本(ソフトカバー)
入門確率過程

入門確率過程

f:id:good_na_life:20200520171617j:plain
初夏

*1:松原(2003)『入門確率過程』には増分は\mathcal{N} (μ(t-s),σ^2(t-s) )に従い、μ=0,σ^2=1のとき標準ブラウン運動と呼ぶ、とあり、ブラウン運動と標準ブラウン運動を区別しています。この記事ではブラウン運動を標準ブラウン運動の意味で扱います。

*2:2次元正規分布については過去の記事でも触れています

【統計検定準1級】マルコフ連鎖

はじめに

この記事ではマルコフ連鎖(Markov chain)を扱います。統計検定準1級の出題範囲表の一部です。

大項目 中項目 項目(学習しておくべき用語)例
マルコフ連鎖と確率過程の基礎 マルコフ連鎖 推移確率、既約性、再帰性、定常分布

だいたいこれくらいの範囲を簡単にカバーできればokとします。

マルコフ連鎖

確率変数がとる値の集合S状態空間(state space)といい、その要素を状態(state)と呼びます。状態i,j \in Sに対して確率p_{ij}は 、p_{ij} \geq 0\sum_{j \in S} p_{ij} =1を満たします。ここでi,j,x_{n-1},\cdots.x_{0} \in Sに対して、


 {
\begin{eqnarray}
P(X_{n+1} =j|X_n =i) = p_{ij} \tag{1} \\
P(X_{n+1} =j|X_n =i,X_{n-1}=x_{n-1},\cdots,X_0=x_0) = p_{ij} \tag{2} 
\end{eqnarray}
}


を仮定します。(1)(2)を満たす確率過程を(離散)マルコフ連鎖(Markov chain)と呼びます*1

(1)は状態iから状態jに移る確率がp_{ij}で与えられており、 p_{ij}推移確率(transition probability)と呼びます。(2)は推移確率が直前の状態(X_n =i)のみに依存し、過去の履歴(X_{n-1}=x_{n-1},\cdots,X_0=x_0)に依存しないことを意味します。過去の履歴が直前の状態に集約される、とも言えます。この性質をマルコフ性(Markov property)と呼びます。このマルコフ性によって、(2)の同時分布は(1)の推移確率と初期分布(P(X_0 =i))が与えられれば計算することが可能です。

推移確率行列

(i,j)成分がp_{ij}からなる行列を推移確率行列(transition probability matrix)と呼びます。第i成分が1で他は0からなるベクトルをe_iとすると、n回の推移によって状態iから状態jに推移する確率は、


 {
\begin{eqnarray}
P(X_{n} =j|X_0 =i) = e_i^{\mathrm{T}} \mathbf{P}^n e_j \tag{3} 
\end{eqnarray}
}


と表されます。

S=\{0,1,2,\cdots \}の場合、推移確率行列は、

 {
\begin{eqnarray}
\mathbf{P} = 
\begin{bmatrix}
p_{00} & p_{01} & p_{02} & \cdots \\
p_{10} & p_{11} & p_{12} & \cdots \\
p_{20} & p_{21} & p_{22} & \cdots \\
\vdots & \vdots & \vdots & \ddots \tag{4}
\end{bmatrix}
\end{eqnarray}
}

ただし\sum_{j \in S} p_{ij} =1です。

X_nが2つの値0,1だけをとる、つまりS=\{0,1\}の場合、推移確率行列は、

 {
\begin{eqnarray}
\mathbf{P} = 
\begin{bmatrix}
p_{00} & p_{01}  \\
p_{10} & p_{11} \tag{5}
\end{bmatrix}
\end{eqnarray}
}

ただしp_{00} + p_{01}  = p_{10} + p_{11} = 1を満たします。

既約性

状態i,j\in Sに対してP(X_n = j|X_0 = i) >0となる正の整数nがとれるとき、iからj到達可能であるといい、i \rightarrow jと表します。ijを入れ替えても成立するとき、ij相互到達可能であるといい、i \leftrightarrow jと表します。

任意の状態i,j\in Sが相互到達可能であるとき、マルコフ連鎖既約(irreducible)である、といいます。

再帰性

マルコフ連鎖では、ある状態が繰り返し出現することがあります。P(X_n=i|X_0=i)>0となる整数nの最大公約数を状態i周期(period)と呼び、d(i)と定義します。そのようなnが存在しないときはd(i)=0です。d(i)=1のときつまり周期が1のとき、状態i非周期的(aperiodic)であり、d(i)>1のとき状態i周期的(periodic)です。すべての状態が非周期的であるときマルコフ連鎖は非周期的となります。

マルコフ連鎖の中には、繰り返し実現する確率が1、つまり同じ状態に必ず戻るものがあります。必ず戻ることを再帰(reccurent)だと呼びます。再帰性を定義するため、次の2つの記号を導入します。


 {
\begin{eqnarray}
 p_{ij}^{(n)} &=& P(X_{n} =j|X_0 =i) \tag{6} \\
 f_{ij}^{(n)} &=& P(X_{n} =j,X_k \neq j, k=1,2,\cdots,n-1|X_0 =i) \tag{7}
\end{eqnarray}
}


(6)は状態iから出発してn回目に状態jに到着する確率を表します。ただし途中で何回でもjに到着しても問題ありません。これに対して(7)は、状態iから出発してn回目で初めて状態jに到着する確率です。さらに次の確率を導入します。


 {
\begin{eqnarray}
 f_{ij} = \sum_{n=1}^{\infty}  f_{ij}^{(n)} \tag{8}
\end{eqnarray}
}


これは状態iを出発していつかは状態jに到着する確率を表します。したがって、f_{ii}iから出発していつかはiに戻ってくる全確率です。

f_{ii}を使って、再帰性を定義すると、

となります。

定常分布

十分に長い時間が経過したとき、マルコフ連鎖の状態の確率分布はどのようになるのでしょうか。

π_i,i \in S\sum_{i \in S} π_i = 1なる確率分布とします。任意のj \in Sに対して\sum_{i \in S}π_i p_{ij} = π_jが成立するとき、π_i,i \in Sマルコフ連鎖定常分布(stationary distribution)と言います。

時点nで定常分布π_i,i \in Sに至ったと仮定します。すなわち任意のj \in Sに対して、

 {
\begin{eqnarray}
 P(X_n = j) = π_{j} \tag{9}
\end{eqnarray}
}

です。このとき、

 {
\begin{eqnarray}
 P(X_{n+1} = j) &=& \sum_{i \in S} P(X_n = i, X_{n+1} =j ) \\
                        &=& \sum_{i \in S}  P(X_n = i)P(X_{n+1}=j|X_n =i) \\
                        &=& \sum_{i \in S} π_i p_{ij} \\
                        &=& π_j \tag{10}
\end{eqnarray}
}

となり、n以降はすべて定常分布になります。
これを行列で表します。推移行列が\mathbf{P}マルコフ連鎖が時点nに状態iにある確率をπ_n(i)として、\mathbf{π_n}=(π_n(1),π_n(2),\cdots)と表します。(10)の状態では、次の漸化式


 {
\begin{eqnarray}
\mathbf{π_{n+1}} = \mathbf{π_n} \mathbf{P} \tag{11}
\end{eqnarray}
}


が成立していることになります。初期分布\mathbf{π_0}からn回の推移を繰り返すと考えると、


 {
\begin{eqnarray}
\mathbf{π_{n+1}} = \mathbf{π_0} \mathbf{P^n} \tag{12}
\end{eqnarray}
}


nを無限大に大きくして\mathbf{π}が一定値に近づくとき、


 {
\begin{eqnarray}
\mathbf{π} = \mathbf{π} \mathbf{P} =\mathbf{π} \mathbf{P^2} = \cdots = \mathbf{π} \mathbf{P^n}   \tag{13}
\end{eqnarray}
}


が成立します。したがって、


 {
\begin{eqnarray}
\lim_{n \rightarrow \infty} p_{ij}^{(n)} = π_{j}  \tag{14}
\end{eqnarray}
}


が成立します。もちろんπ_j\sum_{i \in S} π_i = 1\sum_{i \in S}π_i p_{ij} = π_jを満たします。(14)厳密には既約なマルコフ連鎖が正再帰的で非周期的という条件が必要ですが、ここでは省略します。

(13)は漸化式を使って求めることができます。定常分布自体は分かりやすい考え方ですが、計算ミスなく定常分布ベクトルを導出できるかどうかが問題ですね。

読んでいただいてありがとうございました。

参考文献

東京理科大学・木村先生のスライドが大変参考になりました。
https://www.rs.noda.tus.ac.jp/skimura/AppMath3/AppMathIII-7.pdf

弱点克服大学生の確率・統計

弱点克服大学生の確率・統計


f:id:good_na_life:20200519120441j:plain
雨の降る公園

*1:確率変数が連続の場合はマルコフ過程と呼びます。

【統計検定準1級】回帰診断

誤差項の仮定

以下の回帰モデルを仮定します。


\begin{eqnarray}
Y_i &=& α + β X_{i} + u_i \tag{1} 
\end{eqnarray}

誤差項の仮定は、

仮定1
E[u_i]=0 , \forall i
期待値がゼロ

仮定2
E[u_i|X_i]=0 , \forall i
説明変数X_iの条件付き期待値がゼロ

仮定3
V[u_i]=σ^2 ,\forall i
分散が等しい(等分散性)

仮定4
Cov(u_i,u_j)=0  ,\forall i, i \neq j 
共分散がゼロ(分散共分散行列の対角成分以外はゼロ)

仮定5
u_i \overset{iid}{\sim} N(0,σ^2),\forall i
正規分布に従う(正規性)

これらの仮定を合わせると、誤差項は互いに独立に同一の正規分布に従う(independently and identically distributed)ことが分かります。

回帰診断

①予測値に対する残差のプロット(Residuals vs Fitted)

仮定1 期待値ゼロ、仮定3 等分散性

回帰モデルの線形性が正しい場合には、回帰モデルが観察データに完全に当てはまる(fit)するならば、残差(Residual)は0を中心に一様に分布する。残差が一様ではなく、曲線的な傾向になっている場合は、モデルの線形性の仮定が疑われる。また、残差の0の水平線からのズレが全体的な傾向か、少数の外れ値が原因かを判断することができる。

②残差の正規Q-Qプロット(Normal Q-Q)

仮定5 誤差項の正規性

標準化された残差を大きさの順に並べたものの分位点と、標準正規分布の累積分布関数の分位点をプロットしたもの。観察データ(誤差項)が正規分布しているかどうかを判断する。正規性の仮定が正しいとき、残差は傾き1の直線上に並ぶ。直線から外れた値を外れ値として取り除けば、モデルの正規性はおおよそ妥当だと判断できる。

③予測値に対する標準化した残差の絶対値の平方根のプロット(Scale-Location)

仮定3 等分散性

残差の変動状況を確認するもの。モデルが正しければ、プロットは一様となる。何らかの傾向があればモデルの妥当性や外れ値を疑う。プロットが予測値に対して増加または減少する傾向がある場合は等分散性が成立しないと判断される。

等分散性が成立しない場合に、従属変数や説明変数を変数変換(平方根、自然対数など)することで等分散性に近づく場合がある。

④梃子(てこ)値(leverage)に対する標準化した残差のプロット(Residual vs Leverage)

外れ値

各観測データが回帰係数の推定値(β)へ与える影響度を判断するもの。点線はクック距離(Cook's distance)と呼び、その観測データを含む場合と含まない場合の予測値の変化量を示す。クック距離が大きいと外れ値の可能性があり、0.5を超えると影響力があり、1を超えると異常に影響力があると判断される。

誤差項同士の相関

誤差項同士に相関がある場合、回帰分析によって最良線形推定量を得ることができない。特に時系列データを扱う場合の誤差項の相関は系列相関(serial correlation)と呼ぶ。系列相関を検定するための統計量としてダービン・ワトソン比、系列相関に対処する方法としてコクラン・オーカット法等が知られている。

www.goodnalife.com

Rを使って回帰診断図を描く

Rで回帰診断図(Regression Diagnosis Plots)を描いてみます。Rのデフォルトデータセットである「airquality」を使い、重回帰分析を行います。オゾンの量を、日射量、風力、気温に回帰させます。

  • オゾンの量(単位:ppb, Y_i
  • 日射量(単位:lang,X_{1i}
  • 風力(単位:mph,X_{2i}
  • 気温(単位:F°,X_{3i}

plot関数を使えば回帰診断図を作成できます。

res <- lm(Ozone ~ Solar.R + Wind + Temp, data=airquality)
plot(res)

それでは順番に診断図を見ていきます。

①予測値に対する残差のプロット(Residuals vs Fitted)

f:id:good_na_life:20200518104732p:plain

曲線的な傾向が見られます。特に観察データ30,62,117が外れ値である可能性が高いことが示唆されます。

②残差の正規Q-Qプロット(Normal Q-Q)

f:id:good_na_life:20200518105236p:plain

観察データ30,62,117などを除けば、概ね回帰モデル(誤差項)の正規性は成立することが分かります。

③予測値に対する標準化した残差の絶対値の平方根のプロット(Scale-Location)

f:id:good_na_life:20200518105428p:plain

予測値(fitted value)に対して減少する傾向が見られます。(1)の回帰モデルの説明変数ベクトルをlog(X_i)などと変数変換し、等分散に近づけるなどの操作を行うことが考えられます。

④梃子(てこ)値(leverage)に対する標準化した残差のプロット(Residual vs Leverage)

f:id:good_na_life:20200518105749p:plain

観測データ117のクック距離(Cook's distance)が最も大きく、回帰係数に与える影響が大きいことが分かります。

【補足】ggplotを使った回帰診断図

plot関数を使えば一瞬で作図はできるものの、自分の勉強のため上述の4枚をggplotを使って作図しました。

f:id:good_na_life:20200518110456p:plain

4枚目の梃子値と残差のグラフ(Residuals vs Leverage)はうまくクック距離を重ねて表示することができなかったため、残差とクック距離のグラフを描きました。

回帰診断図の使い道とは?

回帰モデルの線形性、誤差項の仮定が妥当かどうかを「診断」しました。それでは診断結果を踏まえてどのような対処ができるのでしょうか。1つはモデルへの当てはまりが悪い外れ値を除外することです。もう1つは、回帰モデルの関数形を見直すことです。両者ともある決まった作法がある訳ではありませんし、特に後者の場合は先行研究における観測データの扱いを踏まえて、妥当なモデルを検討し続けるしかないのだと思います。

回帰診断図より、外れ値である可能性があると考えられる観察データ30,62,117を取り除き、同じ回帰モデルを推定します。

f:id:good_na_life:20200518134017p:plain

確かに外れ値(オゾンの量の高い観察データ)を除外したことで、モデルへの当てはまりが良くなっています(R^20.6059→0.664)。回帰診断という仰々しい名前がついてはいるものの、やっていることはモデルの観察データへの当てはまりを良くしているだけのようにも思えます。


以上、読んでいただきありがとうございました。

参考

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2016〜2017年]

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2016〜2017年]

  • 発売日: 2018/03/14
  • メディア: 単行本(ソフトカバー)

正規Q-Qプロットの意味について、とても分かりやすい記事です。
Normal Q-Q プロットを理解する|hanaori|note

Rを使った作図方法について、大変参考にさせていただきました。
【R】回帰診断図(Regression Diagnosis Plots)をggplot2で表示する - t_kahi’s blog

f:id:good_na_life:20200518111605j:plain
家の近くの川

【統計検定準1級】系列相関の検定方法と対処法

はじめに

この記事では時系列モデルにおける系列相関(serial correlation)の検定方法と、系列相関の疑いがあるときの対処法について扱います。ダービー・ワトソン(Durbin-Watoson)比(検定)、コクラン・オーカット法に関する、統計検定準1級レベルの内容です。

ダービン・ワトソン比の定義

回帰分析では、誤差項について以下の仮定が置かれています。

  • 誤差項の共分散がゼロ
  • 誤差項はそれぞれ独立に平均0、分散σ^2正規分布に従う

時系列データを扱うとき、誤差項の系列u_1,u_2, \cdots , u_iの符号がプラスもしくはマイナスが連続で続く場合は正の系列相関がある、プラスとマイナスが交互で続く場合は負の系列相関がある、と言います。系列相関の特徴は、i期の誤差項u_iの符号がu_1,u_2 \cdots , u_{i-1}から予想されるということです。これは「誤差項はそれぞれ独立に正規分布に従う」という仮定に反します。この仮定が満たされない場合、不均一分散の場合と同じく、最小二乗推定量(OLSE)は最良線形不偏推定量ではなくなります。

ダービン・ワトソン比とは、回帰モデルと誤差項を仮定し、



\begin{eqnarray}
Y_i &=& α + β X_{i} + u_i \tag{1} \\ \\
u_i &=& ρ u_{i-1} + ε_i  \tag{2}
\end{eqnarray}

以下の検定*1を行うための統計量です。



\begin{eqnarray}
H_o : ρ=0 \  vs \  H_1 : |ρ| < 1  \tag{3}
\end{eqnarray}


(2)の誤差項u_iは互いに独立に正規分布(0,σ^2)に従います。(2)のような誤差項の関数形をAR(1)(1st order autoregressive model)と呼びます。
(3)は、ρ=0ならば系列相関なし、ρ\neq 0ならば系列相関が存在します。ρ>0の場合は正の系列相関、ρ<0の場合は負の系列相関が存在することになります。ダービン・ワトソン比の定義は、



\begin{eqnarray}
DW= \frac{\sum_{i=2}^{n} ( \hat{u}_i - \hat{u}_{i-1} )^2}{\sum_{i=1}^{n} \hat{u}^2_i}  \tag{4}
\end{eqnarray}


です。\hat{u_i}は(1)の推定結果を使って導出した残差です。

ダービン・ワトソン比の近似と解釈

ダービー・ワトソン比は、誤差項の一次の自己相関係数ρを使って近似することができます。(4)の右辺を展開すると、



\begin{eqnarray}
DW &=& \frac{\sum_{i=2}^{n}  \hat{u}^2_i + \sum_{i=2}^{n} \hat{u}^2_{i-1} - 2\sum_{i=2}^{n}  \hat{u}^2_i  \hat{u}^2_{i-1}  }{\sum_{i=1}^{n} \hat{u}^2_i} \\
       & \simeq &  \frac{2 \sum_{i=2}^{n}  \hat{u}^2_i - 2\sum_{i=2}^{n}  \hat{u}^2_i  \hat{u}^2_{i-1}  }{\sum_{i=1}^{n} \hat{u}^2_i} \\
       &=& 2(1-\hat{ρ}) \tag{5}
\end{eqnarray}


(5)ではサンプルサイズが十分に大きいとき、誤差項の二乗和は近しい値になると考えます。


\begin{eqnarray}
\sum_{i=1}^{n} \hat{u}^2_i \simeq \sum_{i=2}^{n} \hat{u}^2_i \simeq \sum_{i=2}^{n} \hat{u}^2_{i-1} \tag{6}
\end{eqnarray}



\begin{eqnarray}
\hat{ρ} = \frac{\sum_{i=2}^{n}  \hat{u}^2_i  \hat{u}^2_{i-1}}{\sum_{i=1}^{n} \hat{u}^2_i} \tag{7}
\end{eqnarray}


\hat{ρ}を求めるには、まず(1)より誤差項u_iの推定値を求め、それらを(2)に代入します。ダービン・ワトソン比の解釈は、

  • 2前後のときは系列相関なし(\hat{ρ}=0のとき、DW \simeq 2
  • 2より小さいときは正の系列相関
  • 2より大きいときは負の系列相関

ただし、ダービン・ワトソン比は(2)の仮定が限定的であるという批判もあります。そのため、最近は参考指標として2に近いかどうかをざっくりチェックする、という程度で使われているようです。

系列相関のもとでの回帰モデルの推定(コクラン・オーカット法)

誤差項に系列相関が存在すると判断された場合、コクランオーカット法を用いて回帰モデルを推定することができます。
(1)の添え字をiからi-1に変えると、



\begin{eqnarray}
Y_{i-1} = α + β X_{i-1} + u_{i-1} \tag{8}
\end{eqnarray}


(1)からρ×(8)を引くと、



\begin{eqnarray}
Y_{i} - ρY_{i-1} &=& (1-ρ)α + β(X_i - ρX_{i-1}) + (u_{i} -ρu_{i-1}) \\
&=& γ + β(X_i - ρX_{i-1}) + ε_i \tag{9}
\end{eqnarray}


(9)の変形は(2)の関係を用いています。γ=(1-ρ)αです。もしρの値が既知であれば、(9)を最小二乗法で推定すれば効率的な推定量が得られます。しかし、実際には未知なので、ρの推計値を用いて推定を行います。

具体的な手順としてはまず、(1)の回帰モデルを推定し、残差を\hat{u_i}とします。次に、\hat{u_i}\hat{u_{i-1}}に回帰して、ρの推計量\hat{ρ}を得ます。
そして、(9)に従い、



\begin{eqnarray}
Y^{*}_i &=& Y_i-\hat{ρ}Y_{i-1} \tag{10} \\
X^{*}_i &=&  X_i - \hat{ρ}X_{i-1} \tag{11}
\end{eqnarray}


を新たな変数として



\begin{eqnarray}
Y^{*}_{i} &=& γ + β X^{*}_i + ε_{i} \tag{12}
\end{eqnarray}


(11)を推定します。(11)の誤差項は、標準的仮定を満たすため、最良線形不偏推定量である\hat{β}を求めることができます。

Rを使って可視化する

それではRの標準データセットを使って、実際に(1)を推定します。以下、2種類の150期の時系列データを使います。

  • 売上高Y_i, i = 1, \cdots 150
  • 売上高の先行指標X_i,  i = 1, \cdots 150

f:id:good_na_life:20200516214102p:plainf:id:good_na_life:20200516214142p:plain

(1)を推定します。線形な関数だと当てはまりが良いようです。

f:id:good_na_life:20200517084524p:plain

残差をプロットします。

f:id:good_na_life:20200516214637p:plain

上図を見る限り、残差は一期前の値に影響を受けている、すなわち系列相関が考えられます。ちなみに(1)のパラメータは\hat{α}=30.88, \hat{β}=16.81です。DW比を計算すると、0.68828となり、やはり正の系列相関があることが分かります。

自己相関係数ρのコレログラムを描くと、

f:id:good_na_life:20200516220017p:plain

青線は95%信頼区間です。

回帰モデル(1)には系列相関が発生しているため、コクラン・オーカット法を用いて(1)のβを推定します。以下のresには(1)の回帰モデルの推定結果が格納されています。

#(1)の推定結果を使って残差を求める
resid1 <- resid(res)

#残差の一階ラグをとる
resid1_lag1 <- c(0,resid(res)[1:length(resid1)-1])

Sales_lag1 <- c(0,df[,2][1:length(df[,1])-1])
Sales.lead_lag1 <- c(0,df[,3][1:length(df[,2])-1])
df_dw <- cbind(df,resid1,resid1_lag1,Sales_lag1,Sales.lead_lag1)

#(2)を推定してρを求める
rho <- coef(summary(lm(resid1 ~ resid1_lag1)))[1,1]

#(10)(11)を求める
Sales_star<-cbind(c(df[,2][2:length(df[,1])]-rho*Sales_lag1[2:length(df[,1])]))
Sales.lead_star<-cbind(c(df[,3][2:length(df[,2])]-rho*Sales.lead_lag1[2:length(df[,2])]))

#(12)を推定してβを求める                  
df_dw2 <- cbind(Sales_star,Sales.lead_star)
cochrane_orcutt<-lm(Sales_star ~ Sales.lead_star)

#推定結果とDW検定の結果
summary(cochrane_orcutt)

コクラン・オーカット法を用いることで、(1)のパラメータは\hat{α}=30.27, \hat{β}=16.78だと求まりました。実はこれらの値、系列相関を仮定せずに(1)を推定した場合の推定値とほとんど変わりません。主な理由は(1)の推定が当てはまりがよく、決定係数がR = 0.905と十分に高いためです。そもそもモデルの当てはまりがよいので、誤差項にAR(1)を仮定したところで、推定結果はほとんど変わらない、ということです。

読んでいただき、ありがとうございました。

参考文献

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2016〜2017年]

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2016〜2017年]

  • 発売日: 2018/03/14
  • メディア: 単行本(ソフトカバー)

計量経済学 (サピエンティア)

計量経済学 (サピエンティア)

f:id:good_na_life:20200518112144j:plain
近くの大学

*1:対立仮説でφ > 1の場合を考えないのはデータ分析において発散的な確率過程を扱うことがほとんどないためです。

自分自身の人生を生きる

多分、人生が変わった。3日前、5月13日(水)の夜、自分に転機が訪れたのだと思う。シンプルに結論を言うと、これからはもっと自分自身の人生を生きる、という話。一昨日と昨日はまだ転機の余韻が残っていて、頭がふわふわしたような、地に足のつかない、根無し草になったような、自分の重心がどこか分からなくなる感覚が残っていた。これ以上時間が経つと、その時の感情をうまく文章にしようとして、感情のニュアンスをうまく表せなくなってしまう。言葉はいつも感情に追いつかない。話す言葉や文章は原文を訳した二次情報でしかない。

今、心は落ち着いている。朝の公園でこれを書いている。犬の散歩をする人、僕のようにパソコンを開く人、芝生に寝転がる人、遊ぶ子供、ストレッチをする人、自転車をこぐ人、鳩。空は白い。軽い空気。

自分自身の人生を生きてこなかったのではないかと気づいた。それは3日前の夜、岡本太郎の書籍を解説するYouTubeをラジオ替わりに流していたとき。自分は自身の人生を生きてこなかったのではないか。マクロな話で言うと、世界のルールである資本主義、貨幣経済、社会システムの中に最適に取り込まれている自分。きっと頭ではわかっていたのだと思う。学部時代から経済学や社会学の古典に触れてきた。頭ではわかっている。でもこれは知識とか理論とかの話ではない。自分の思考、考え方、発想それらがいかに競争や他人との比較に浸食され、汚されてしまっていたか、という肌感覚である。経歴で人を判断し、賞をとった映画に心打たれ、食べログで他人の評価と自分の評価にズレがないかを気にする。果たしてこれが自分自身の思考なのか。ミクロな話、身近な話題で言うと、他人の目や世間の評価を気にする自分がいる。まともに働いていると思われたい、まっとうな人生を歩んでいると思われたい。誰のためか、親か、親戚か、高校の同級生か、大学の友人か。なぜ上司の間違いを指摘しないのか、話の長いつまらない先輩の話をにこにこして聞いているのか、権威のある人にかわいがられたいとへらへらしているのか、同期と酒を飲みながら仕事の愚痴を言うのか。本当にかっこ悪い。本当に。

景色でも音楽でも料理でもなんでもよい。美しい、綺麗だ、おいしい、面白い、楽しいと感じる確かな自分の感情があるのに、自分はその声を今まで聞いてきたか。一番のバロメータである自分の感情に素直に生きてきたのか。別に今までの人生がすべて間違いだったなどは思わない。自分で選択して手に入れたものもあるし、楽しかった瞬間もたくさんある。でも、今日こそは自分自身だという一日を生きた、と胸を張って言える日が何日あったか。もっと短い単位でいい。一瞬一瞬の判断、意思決定、この瞬間自分自身の直観に従ったと言えるときがどれほどあっただろうか。おそらく今までの大多数の瞬間は無視してきた。一番信頼できる自分の声を聴かなかった。ずっと何らかの信号を送り続けてくれていたにもかかわらず、それを聞かないふりをしてきた。こんな不遜がこの世の中にあるか。

お前は誰の人生を生きてるねん。アホか。怒号。阿鼻叫喚の極み。生命。滝のような感情。胸倉を掴んでめちゃくちゃにしたい。怒鳴りつけたい気分だが怒鳴りつける相手がいない。今までに体験したことのない不条理。こんなことが許されるのか。どんな手を使ってでも止めさせたい。そのためには何でもする。全身で、身を投げ打って、その不条理と闘わなければならない。遠い国の戦争、貧困、差別、犯罪、テロ、地球の環境などどうでもよい。人が何人死のうが関係ない。今、自分がこの問題に立ち向かわなければすべてが失われる。取り返しのつかないことをしている。筆舌に尽くしがたい圧力を持した感情に、立っていられない。息ができない。素手で心臓を掴まれ、揺さぶられる。自制がきかない。

思わず外に出て、歩き始めた。とにかく体に負荷をかけたかった。ここまで心が揺さぶられているのに、体にまったく疲労がないのはおかしい。バランスがとれない。このままでは自分がバラバラになってしまう。1時間か1時間半か、ずっと歩き続けた。心と同じぐらい体を疲れさせ、自分を落ち着かせたかった。そして、自分の身に起きたことを言語化しようと試みた。

結局、社会のシステムに取り込まれているなど、他人の目を気にするなど言ったところで、それも結局自分が作り出したものにすぎない。自分と社会や環境が対立しているのではない。内部も外部もない。本来何の違いもない。何が良い悪い、誰が優れている劣っている。関係性を作っているのは自分自身でもあるのだ。関係性というのは人間関係のことで、部下と上司、子供と親、妻と夫などが分かりやすい。部下と上司、それぞれの人間に優劣がある訳ではない。始原的な違いはない。そこに自分たちが主従関係を作り出している。会社のルールに適合しているかを確認する、決済をもらうために頭を下げる、自分の表情、言動、仕草、一挙手一投足すべての所作が、上司を上司たらしめている。だからこの主従関係は合作で、自分を取り巻く社会や環境を作り出すのは自分。社会や環境が苦しく、望まないものなのであれば、それは自分と社会や環境の共犯なのだと。

ならば苦しみたかったのは自分だ。評価されないのは自分。認められないのは自分。許せないのは自分。そんなに怖いことか。職をなくす。給料がなくなる。履歴書に空白ができる。地位も名誉もない。生身の人間を生き続ける。誰にも認められない。賞賛されない。見向きもされない。そんなに怖いものなのか。誰かの用意した安全の道の先に、値段の着いた安定した生活が待っている。それを享受して幸せだとかなんとか言うのか。それを繰り返したところで後悔するのが目に見えている。きっと年老いて死ぬ直前になって気づくだろう。自分を信じればよかった。何を恐れる必要があったのだと。だったら自分自身の人生を生きよう。瞬間的に、図太く、いのちを使って死んでいこう。今、この瞬間の自分に全幅の信頼を置こう。そしてそれを繰り返す。

もしコロナがなければ僕はこの絶対的な自分に気づけなかったのかもしれない。今までの人生でこれほど自分と対話できたことがなかったかもしれない。だからコロナに感謝したい。「直観を信じろ!」「嫌なことは全部ウイルスのせいにしていいよ!」と応援されているような気分になる。コロナに感謝したい。MVPをあげたい。この追い風が止まぬよう感謝し続けたい。

f:id:good_na_life:20200515124231j:plain
最近の散歩コース