Goodな生活

経済学修士→環境コンサル→データサイエンス

統計学

実験計画法(5)2水準の直交表

直交表とは 実験に用いる因子の数が多くなると、水準との組み合わせの数が増え、必要な実験回数が増えてしまう。例えば因子が10個、水準が2つの場合、因子と水準との組み合わせの数はとなり、少なくとも回の実験が必要になってしまう。企業の製品開発などで…

【2021年7月】統計検定準1級の受験振り返り

統計検定を受験しました 試験の手ごたえ やったこと これからやること CBT方式が始まってた 統計検定を受験しました 先月6月21日(日)統計検定準1級を受けてきました。2020年の試験が新型コロナウイルス対策のため中止になり、今年の受験に向けてゆるゆると…

実験計画法(4)分割法

分散分析、乱塊法に引き続き実験計画法についてのメモ。 分割法の考え方 完全無作為法による1次因子の繰り返し 乱塊法による1次因子の繰り返し 分割法の検定精度 参考文献 分割法の考え方 あるコーヒー農園で次のような実験を行う。3つの品種(A,B,C)と2つ…

実験計画法(3)乱塊法

乱塊法の構造式(モデル) 乱塊法の検定精度 参考文献 乱塊法の構造式(モデル) 乱塊法では実験条件が同一であるブロック因子を、実験結果に影響を与える1つの因子だと考える。分散分析の構造式にブロック因子を足せばよい。一元配置分散分析の構造式は、 …

実験計画法(2)分散分析

分散分析とは 一元配置分散分析 構造式(モデル) 帰無仮説 検定統計量の算出 水準ごとの平均値の点推定 (補足)TSS = BSS + WSSの証明 二元配置分散分析 構造式(モデル) 分散分析表 帰無仮説と検定統計量 参考文献 分散分析とは 分散分析は実験計画法の1…

実験計画法(1)フィッシャーの三原則と乱塊法

実験計画法 フィッシャーの実験の3原則 3原則を満たす乱塊法のイメージ 実験計画法 実験計画法(experimental design)とは、取り上げる対称についての結果とそれに影響しそうな要因との関係を調べるため、時間・コスト等の制約を考慮しながら計画的に実験を…

マルコフ連鎖

推移確率行列 定常分布 確率推移のイメージ 極限分布 MCMC メトロポリス法 推移確率行列 確率変数がマルコフ連鎖であるとき、1期前の状態のみに依存し、それ以前の状態には依存しないことを意味する。過去のすべての履歴が直前の状態に集約される、とも言え…

ベイズ判別

条件付き確率とベイズの定理 正規分布のベイズ判別 判別関数 参考文献 条件付き確率とベイズの定理 ベイズ判別の基本的な考え方はベイズの定理に基づく。例えばある患者の発熱という症状について風邪かインフルエンザのどちらの原因で生じたかを判断したいと…

クラスター分析(階層型分類法の基本事項)

クラスター分析は異なる性質が混ざった多数の個体を、個体間の類似度に基づいて似たものの集まり(クラスター)を作るための手法。判別分析ではどの群に属するかがあらかじめわかっているデータに基づいて判別関数(判別方法)を構成したのに対し、クラスタ…

判別分析(2)マハラノビスの距離

フィッシャーの線形判別関数は、青(1群)と赤(2群)から観測されたデータを、変数の線形結合で表される軸上へ射影し、それぞれの群の分離度を表す群間分散と、各群内のデータのばらつき度合いを示す郡内分散の比を最大にする軸(直線)を最適な射影軸とす…

判別分析(1)線形判別関数

線形判別分析 判別分析の目的は量的なデータを元に質的な結果を予想すること。例えば身長や体重、血圧といった量的なデータを元に、その人が健康か不健康かを判断する。線形判別とはデータを直線で分け、データが直線の左右どちらにあるかを判別する。図1は2…

因子分析の直感的理解

主成分分析と因子分析の違い 1因子モデル 1因子モデルの図示 因子についての仮定条件 連立方程式を解く 2因子モデル 2因子モデルの図示 因子についての仮定条件 共通性 独自性 因子の回転 参考文献 主成分分析と因子分析の違い 主成分分析と同様、因子分析も…

主成分分析の直感的理解

最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…

統計検定準1級:非線形回帰における正則化

線形回帰では直線による回帰しかできなかった一方、説明変数を変数変換したものを説明変数に加えることで非線形回帰ができる。を変数変換したものを基底関数と呼ぶ。基底関数をたくさん使うことで説明変数をいくらでも増やすことができるが、過学習*1が起こ…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

【統計検定1級・過去問】統計数理(2019年11月 問5)

[1]ラプラス分布の期待値と分散 期待値は、と変数変換を行うと、と表すことができる。(2)では、および奇関数の性質(原点で対称であるため定積分はゼロ)を用いている。分散は、 [2]事後確率密度関数 ここで、 を(7)に代入すると、はの分散を表す。 [3]事後…

【統計検定1級・過去問】統計数理(2019年11月 問4)

[1]検定のサイズ(α)の導出 サイズ(第1種の過誤確率:)とは、帰無仮説()が正しいにもかかわらず帰無仮説()を棄却してしまう確率。棄却域をとすると、と表すことができる。したがって、帰無仮説()の条件下において、の範囲で密度関数を積分すればよ…

【統計検定1級・過去問】統計数理(2019年11月 問3)

[1]十分統計量の証明 [3]よりの密度関数はを含まないため、 はに対する十分統計量である。 [2]確率密度関数の導出 として、の累積密度関数は、(1)の両辺をで微分すると、したがって、の確率密度関数は、の範囲で。 [3]条件付き同時密度関数 同時密度関数の定…

【統計検定1級・過去問】統計数理(2019年11月 問2)

[1] 確率変数の和の期待値 は独立なので、それぞれの平均を求めればよい。 部分積分を使うと、変数変換すると、ガンマ関数を使うことができる。も同じ期待値なので、 参考:指数関数とガンマ関数の性質 指数分布に従う確率変数のべき乗の期待値はガンマ関数…

【統計検定1級・過去問】統計数理(2019年11月 問1)

[1] モーメント母関数による期待値と分散 [2]モーメント母関数による期待値と分散(二項分布) 別解:二項分布の再生性 [3] チェビシェフの不等式(離散型確率変数の場合) [4] 確率密度関数の最小値 別解:密度関数の対数微分 参考文献 [1] モーメント母関…

【統計検定1級】代表的な確率分布

統計検定1級の学習メモ。代表的な確率分布について。 離散型確率分布 2項分布 ベルヌーイ試行とベルヌーイ分布 ベルヌーイ試行の一般化による2項分布の導出 最尤推定量 フィッシャー情報量 最尤推定量はUMVE 幾何分布 最尤推定量 ポアソン分布 ポアソン少数…

【統計検定準1級】時系列解析(3) MA過程

移動平均過程(MA過程) MA過程の具体例 参考 移動平均過程(MA過程) AR過程と異なり、が現在と過去の誤差項の加重和の線形結合で表される系列を、移動平均過程(Moving Average;MA process)という。1次のMA過程(MA(1))は、をホワイトノイズとして、両…

【統計検定準1級】時系列解析(2)AR過程

自己回帰過程(AR過程) AR過程の具体例 参考 自己回帰過程(AR過程) 過去の観測値に依存する同一変数が従う過程が自己回帰過程(Autoregressive;AR process)である。現在の値()を過去の値()に回帰させ、p期前までの値に回帰させる場合は「p次のARモ…

【統計検定準1級】時系列解析(1) 定常性とホワイトノイズ

時系列データとは 時系列データの基本統計量 平均・分散 自己共分散 定常性 弱定常過程の定義 強定常過程との違い ホワイトノイズ iid系列 参考文献 時系列データとは 時系列データ(time-series data)とは、時間の経過とともに観測されたデータ。毎月の消…

【統計学用語】Estimand, Eatimator, Estimatesの違い

用語の定義 Estimand (推定対象):関心のあるパラメータ Estimator(推定量):Estimandを導出するためのアルゴリズム Estimates(推定値):Estimatorの出力値 OLSにおけるEstimand, Estimator, Estimates 単回帰を最小二乗法(OLS)で推定する場合のEsti…

【統計検定準1級】ブラウン運動

はじめに この記事では、ブラウン運動のさわりについて扱います。統計検定準1級の出題範囲のうち、確率過程の基礎に該当するトピックです。 小項目 項目例 確率過程の基礎 ランダムウォーク、ポワソン過程、ブラウン運動 はじめに ブラウン運動とは ブラウン…

【統計検定準1級】回帰診断

はじめに この記事では、回帰分析を行うとき、誤差項の仮定が成立しているかどうかを評価する、回帰診断(regression diagnosis)について扱います。統計検定準1級レベルの内容です。 はじめに 誤差項の仮定 回帰診断 ①予測値に対する残差のプロット ②残差の…

【統計検定準1級】時系列解析(3)系列相関

はじめに この記事では時系列モデルにおける系列相関(serial correlation)の検定方法と、系列相関の疑いがあるときの対処法について扱います。ダービー・ワトソン(Durbin-Watoson)比(検定)、コクラン・オーカット法に関する、統計検定準1級レベルの内…

【統計検定準1級】2次元正規分布と条件付き確率分布の求め方【R】

2次元正規分布の導出方法と、2次元正規分布の条件付き確率分布の導出を扱います。統計検定準1級で頻出のテーマです。

ざっくり理解する中心極限定理

中心極限定理(central limit theorem ; CLT)と大数の法則との違い、証明、イメージについての簡単に書きました。