Goodな生活

Goodな生活

データサイエンスと弦楽器を探究する

統計学

クラスター分析(階層型分類法の基本事項)

クラスター分析は異なる性質が混ざった多数の個体を、個体間の類似度に基づいて似たものの集まり(クラスター)を作るための手法。判別分析ではどの群に属するかがあらかじめわかっているデータに基づいて判別関数(判別方法)を構成したのに対し、クラスタ…

判別分析(2)マハラノビスの距離

フィッシャーの線形判別関数は、青(1群)と赤(2群)から観測されたデータを、変数の線形結合で表される軸上へ射影し、それぞれの群の分離度を表す群間分散と、各群内のデータのばらつき度合いを示す郡内分散の比を最大にする軸(直線)を最適な射影軸とす…

判別分析(1)線形判別関数

線形判別分析 判別分析の目的は量的なデータを元に質的な結果を予想すること。例えば身長や体重、血圧といった量的なデータを元に、その人が健康か不健康かを判断する。線形判別とはデータを直線で分け、データが直線の左右どちらにあるかを判別する。図1は2…

因子分析の直感的理解

主成分分析と因子分析の違い 1因子モデル 1因子モデルの図示 因子についての仮定条件 連立方程式を解く 2因子モデル 2因子モデルの図示 因子についての仮定条件 共通性 独自性 因子の回転 参考文献 主成分分析と因子分析の違い 主成分分析と同様、因子分析も…

主成分分析の直感的理解

最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…

統計検定準1級:非線形回帰における正則化

線形回帰では直線による回帰しかできなかった一方、説明変数を変数変換したものを説明変数に加えることで非線形回帰ができる。を変数変換したものを基底関数と呼ぶ。基底関数をたくさん使うことで説明変数をいくらでも増やすことができるが、過学習*1が起こ…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

【統計検定1級・過去問】統計数理(2019年11月 問5)

[1]ラプラス分布の期待値と分散 期待値は、と変数変換を行うと、と表すことができる。(2)では、および奇関数の性質(原点で対称であるため定積分はゼロ)を用いている。分散は、 [2]事後確率密度関数 ここで、 を(7)に代入すると、はの分散を表す。 [3]事後…

【統計検定1級・過去問】統計数理(2019年11月 問4)

[1]検定のサイズ(α)の導出 サイズ(第1種の過誤確率:)とは、帰無仮説()が正しいにもかかわらず帰無仮説()を棄却してしまう確率。棄却域をとすると、と表すことができる。したがって、帰無仮説()の条件下において、の範囲で密度関数を積分すればよ…

【統計検定1級・過去問】統計数理(2019年11月 問3)

[1]十分統計量の証明 [3]よりの密度関数はを含まないため、 はに対する十分統計量である。 [2]確率密度関数の導出 として、の累積密度関数は、(1)の両辺をで微分すると、したがって、の確率密度関数は、の範囲で。 [3]条件付き同時密度関数 同時密度関数の定…

【統計検定1級・過去問】統計数理(2019年11月 問2)

[1] 確率変数の和の期待値 は独立なので、それぞれの平均を求めればよい。 部分積分を使うと、変数変換すると、ガンマ関数を使うことができる。も同じ期待値なので、 参考:指数関数とガンマ関数の性質 指数分布に従う確率変数のべき乗の期待値はガンマ関数…

【統計検定1級・過去問】統計数理(2019年11月 問1)

[1] モーメント母関数による期待値と分散 [2]モーメント母関数による期待値と分散(二項分布) 別解:二項分布の再生性 [3] チェビシェフの不等式(離散型確率変数の場合) [4] 確率密度関数の最小値 別解:密度関数の対数微分 参考文献 [1] モーメント母関…

【統計検定1級】代表的な確率分布

統計検定1級の学習メモ。代表的な確率分布について。 離散型確率分布 2項分布 ベルヌーイ試行とベルヌーイ分布 ベルヌーイ試行の一般化による2項分布の導出 最尤推定量 フィッシャー情報量 最尤推定量はUMVE 幾何分布 最尤推定量 ポアソン分布 ポアソン少数…

【統計検定準1級】自己回帰(AR)モデル(2018年6月過去問)

はじめに この記事では代表的な時系列モデルであるARモデルについて扱います。統計検定準一級の2018年6月の過去問を解きながら理解を深めます。 はじめに ARモデル ホワイトノイズ 定常性 自己相関と偏自己相関 自己相関 偏自己相関 Rで可視化 過去問解答 [3…

【統計学用語】Estimand, Eatimator, Estimatesの違い

用語の定義 Estimand (推定対象):関心のあるパラメータ Estimator(推定量):Estimandを導出するためのアルゴリズム Estimates(推定値):Estimatorの出力値 OLSにおけるEstimand, Estimator, Estimates 単回帰を最小二乗法(OLS)で推定する場合のEsti…

【統計検定準1級】ブラウン運動

はじめに この記事では、ブラウン運動のさわりについて扱います。統計検定準1級の出題範囲のうち、確率過程の基礎に該当するトピックです。 小項目 項目例 確率過程の基礎 ランダムウォーク、ポワソン過程、ブラウン運動 はじめに ブラウン運動とは ブラウン…

【統計検定準1級】マルコフ連鎖

はじめに この記事ではマルコフ連鎖(Markov chain)を扱います。統計検定準1級の出題範囲表の一部です。 大項目 中項目 項目(学習しておくべき用語)例 マルコフ連鎖と確率過程の基礎 マルコフ連鎖 推移確率、既約性、再帰性、定常分布 だいたいこれくらい…

【統計検定準1級】回帰診断

はじめに この記事では、回帰分析を行うとき、誤差項の仮定が成立しているかどうかを評価する、回帰診断(regression diagnosis)について扱います。統計検定準1級レベルの内容です。 はじめに 誤差項の仮定 回帰診断 ①予測値に対する残差のプロット ②残差の…

【統計検定準1級】系列相関の検定方法と対処法

はじめに この記事では時系列モデルにおける系列相関(serial correlation)の検定方法と、系列相関の疑いがあるときの対処法について扱います。ダービー・ワトソン(Durbin-Watoson)比(検定)、コクラン・オーカット法に関する、統計検定準1級レベルの内…

【統計検定準1級】2次元正規分布と条件付き確率分布の求め方【R】

2次元正規分布の導出方法と、2次元正規分布の条件付き確率分布の導出を扱います。統計検定準1級で頻出のテーマです。

ざっくり理解する中心極限定理

中心極限定理(central limit theorem ; CLT)と大数の法則との違い、証明、イメージについての簡単に書きました。

ざっくり理解するチェビシェフの不等式と大数の弱法則

はじめに この記事ではチェビシェフの不等式(Chebyshev's inequality)と大数の弱法則(Weak Law of Large Numbers:LLN)*1を扱います。内容の多くは東京大学出版の『統計学入門]』第8章を参考にしています。チェビシェフの不等式を用いると、確率変数の従…

ガウス・マルコフの定理

『統計学入門』第13章の学習メモ。ガウス・マルコフの定理について。 定義 線形推定量とは 分散が最小になることの証明 補足:分散を小さくする条件 参考文献 定義 最小二乗推定量(least squares estimator)は、線形不偏推定量のうち、最小の分散をもつ。 こ…

標本分散の不偏性

『統計学入門』第9章の学習メモ。標本分散(不偏分散)の不偏性について。 定義 不偏性の証明 参考文献 定義 標本分散(不偏分散)の定義は以下の通り。母分散と区別するため、で表される。(1)の右辺の分母が(n-1)なのは、の不偏性を担保するためである。 不…

ポワソンの少数の法則

東京大学出版『統計学入門』第6章の学習メモ。ポワソンの少数の法則(law of small numbers)について。別名ポワソンの極限定理とも呼ばれる。 定義 証明 少数の法則の意味 参考文献 定義 ポワソンの少数の法則は、二項分布の密度関数の極限をとると、ポワソ…