Goodな生活

経済学→環境コンサル→データサイエンティスト

統計学

【統計検定準1級】質的回帰

Logitモデル Probitモデル 参考文献 Logitモデル 線形回帰モデルの場合、量的変数であるを予測するのに、のとる値に制限がない。が0もしくは1の値をとる二値変数であり、が1をとる確率を予測する場合、以下の構造をもつロジスティック回帰モデルを用いる。と…

淡路(2009)『データ同化』練習問題2.1

解答例 (2.16)の導出 解析誤差共分散行列(本文(2.9))を以下のように変形する。本文(2.12)を0とおく(の対角成分(解析誤差分散)の最小化問題を解く)と、(2)を(1)に代入すると(2.16)を導出できる。 (2.15)の導出 重み行列は、本文(2.14)と付録(A.11)の逆…

淡路(2009)『データ同化』練習問題1.3

(1.21)、(1.22)式を使って(1.23)式を導出する。 最後の式展開は二項目がゼロになることを用いた。 参考文献 データ同化―観測・実験とモデルを融合するイノベーション作者:淡路 敏之,池田 元美,石川 洋一,蒲地 政文京都大学学術出版会Amazon

淡路(2009)『データ同化』練習問題1.2

前回に引き続き淡路(2009)の練習問題を解いてみました。ベイズ推定における事後確率分布を具体的に求める問題です。 解答例 (1.20)の条件付き確率は(1)のように表すことができる。(1.20)の分子を、2変数が正規分布に従う場合の条件付き密度関数を使って表す…

淡路(2009)『データ同化』練習問題1.1

淡路他(2009)「データ同化」の練習問題1.1を解いてみました。 解答例 [i] 推定値は以下の式で表され、バイアスをもつ。 (a) 推定値の誤差分散は、以下のように表される。の誤差相関が0の仮定を用いた。 (2)を最小にするを求める。(3)をについて解くと、最適…

実験計画法(5)2水準の直交表

直交表とは 実験に用いる因子の数が多くなると、水準との組み合わせの数が増え、必要な実験回数が増えてしまう。例えば因子が10個、水準が2つの場合、因子と水準との組み合わせの数はとなり、少なくとも回の実験が必要になってしまう。企業の製品開発などで…

【2021年7月】統計検定準1級の受験振り返り

統計検定を受験しました 試験の手ごたえ やったこと これからやること CBT方式が始まってた 統計検定を受験しました 先月6月21日(日)統計検定準1級を受けてきました。2020年の試験が新型コロナウイルス対策のため中止になり、今年の受験に向けてゆるゆると…

実験計画法(4)分割法

分散分析、乱塊法に引き続き実験計画法についてのメモ。 分割法の考え方 完全無作為法による1次因子の繰り返し 乱塊法による1次因子の繰り返し 分割法の検定精度 参考文献 分割法の考え方 あるコーヒー農園で次のような実験を行う。3つの品種(A,B,C)と2つ…

実験計画法(3)乱塊法

乱塊法の構造式(モデル) 乱塊法の検定精度 参考文献 乱塊法の構造式(モデル) 乱塊法では実験条件が同一であるブロック因子を、実験結果に影響を与える1つの因子だと考える。分散分析の構造式にブロック因子を足せばよい。一元配置分散分析の構造式は、 …

実験計画法(2)分散分析

分散分析とは 一元配置分散分析 構造式(モデル) 帰無仮説 検定統計量の算出 水準ごとの平均値の点推定 (補足)TSS = BSS + WSSの証明 二元配置分散分析 構造式(モデル) 分散分析表 帰無仮説と検定統計量 参考文献 分散分析とは 分散分析は実験計画法の1…

実験計画法(1)フィッシャーの三原則と乱塊法

実験計画法 フィッシャーの実験の3原則 3原則を満たす乱塊法のイメージ 実験計画法 実験計画法(experimental design)とは、取り上げる対称についての結果とそれに影響しそうな要因との関係を調べるため、時間・コスト等の制約を考慮しながら計画的に実験を…

マルコフ連鎖

推移確率行列 定常分布 確率推移のイメージ 極限分布 MCMC メトロポリス法 推移確率行列 確率変数がマルコフ連鎖であるとき、1期前の状態のみに依存し、それ以前の状態には依存しないことを意味する。過去のすべての履歴が直前の状態に集約される、とも言え…

ベイズ判別

条件付き確率とベイズの定理 正規分布のベイズ判別 判別関数 参考文献 条件付き確率とベイズの定理 ベイズ判別の基本的な考え方はベイズの定理に基づく。例えばある患者の発熱という症状について風邪かインフルエンザのどちらの原因で生じたかを判断したいと…

クラスター分析(階層型分類法の基本事項)

クラスター分析は異なる性質が混ざった多数の個体を、個体間の類似度に基づいて似たものの集まり(クラスター)を作るための手法。判別分析ではどの群に属するかがあらかじめわかっているデータに基づいて判別関数(判別方法)を構成したのに対し、クラスタ…

判別分析(2)マハラノビスの距離

フィッシャーの線形判別関数は、青(1群)と赤(2群)から観測されたデータを、変数の線形結合で表される軸上へ射影し、それぞれの群の分離度を表す群間分散と、各群内のデータのばらつき度合いを示す郡内分散の比を最大にする軸(直線)を最適な射影軸とす…

判別分析(1)線形判別関数

線形判別分析 判別分析の目的は量的なデータを元に質的な結果を予想すること。例えば身長や体重、血圧といった量的なデータを元に、その人が健康か不健康かを判断する。線形判別とはデータを直線で分け、データが直線の左右どちらにあるかを判別する。図1は2…

【統計検定準1級】因子分析の直感的理解

主成分分析と因子分析の違い 1因子モデル 1因子モデルの図示 因子についての仮定条件 連立方程式を解く 2因子モデル 2因子モデルの図示 因子についての仮定条件 共通性 独自性 因子の回転 参考文献 主成分分析と因子分析の違い 主成分分析と同様、因子分析も…

【統計検定準1級】主成分分析の直感的理解

最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…

【統計検定準1級】線形回帰モデルと正則化

線形回帰モデルの問題点 過学習を避けるための方法 変数増減 縮小推定 次元削減 正則化 L1(Lasso)正則化とL2(Ridge)正則化 Elastic Net推定 参考 2022/08/27 統計検定準1級の学習時に内容修正 線形回帰モデルの問題点 回帰モデルの説明変数の数が大きくなり…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

【統計検定1級・過去問】統計数理(2019年11月 問5)

[1]ラプラス分布の期待値と分散 期待値は、と変数変換を行うと、と表すことができる。(2)では、および奇関数の性質(原点で対称であるため定積分はゼロ)を用いている。分散は、 [2]事後確率密度関数 ここで、 を(7)に代入すると、はの分散を表す。 [3]事後…

【統計検定1級・過去問】統計数理(2019年11月 問4)

[1]検定のサイズ(α)の導出 サイズ(第1種の過誤確率:)とは、帰無仮説()が正しいにもかかわらず帰無仮説()を棄却してしまう確率。棄却域をとすると、と表すことができる。したがって、帰無仮説()の条件下において、の範囲で密度関数を積分すればよ…

【統計検定1級・過去問】統計数理(2019年11月 問3)

[1]十分統計量の証明 [3]よりの密度関数はを含まないため、 はに対する十分統計量である。 [2]確率密度関数の導出 として、の累積密度関数は、(1)の両辺をで微分すると、したがって、の確率密度関数は、の範囲で。 [3]条件付き同時密度関数 同時密度関数の定…

【統計検定1級・過去問】統計数理(2019年11月 問2)

[1] 確率変数の和の期待値 は独立なので、それぞれの平均を求めればよい。 部分積分を使うと、変数変換すると、ガンマ関数を使うことができる。も同じ期待値なので、 参考:指数関数とガンマ関数の性質 指数分布に従う確率変数のべき乗の期待値はガンマ関数…

【統計検定1級・過去問】統計数理(2019年11月 問1)

[1] モーメント母関数による期待値と分散 [2]モーメント母関数による期待値と分散(二項分布) 別解:二項分布の再生性 [3] チェビシェフの不等式(離散型確率変数の場合) [4] 確率密度関数の最小値 別解:密度関数の対数微分 参考文献 [1] モーメント母関…

【統計検定1級】代表的な確率分布

統計検定1級の学習メモ。代表的な確率分布について。 離散型確率分布 2項分布 ベルヌーイ試行とベルヌーイ分布 ベルヌーイ試行の一般化による2項分布の導出 最尤推定量 フィッシャー情報量 最尤推定量はUMVE 幾何分布 最尤推定量 ポアソン分布 ポアソン少数…

【統計検定準1級】時系列解析(3) MA過程

移動平均過程(MA過程) MA過程の具体例 参考 移動平均過程(MA過程) AR過程と異なり、が現在と過去の誤差項の加重和の線形結合で表される系列を、移動平均過程(Moving Average;MA process)という。1次のMA過程(MA(1))は、をホワイトノイズとして、両…

【統計検定準1級】時系列解析(2)AR過程

自己回帰過程(AR過程) AR過程の具体例 参考 自己回帰過程(AR過程) 過去の観測値に依存する同一変数が従う過程が自己回帰過程(Autoregressive;AR process)である。現在の値()を過去の値()に回帰させ、p期前までの値に回帰させる場合は「p次のARモ…

【統計検定準1級】時系列解析(1) 定常性とホワイトノイズ

時系列データとは 時系列データの基本統計量 平均・分散 自己共分散 定常性 弱定常過程の定義 強定常過程との違い ホワイトノイズ iid系列 参考文献 時系列データとは 時系列データ(time-series data)とは、時間の経過とともに観測されたデータ。毎月の消…

【統計学用語】Estimand, Eatimator, Estimatesの違い

用語の定義 Estimand (推定対象):関心のあるパラメータ Estimator(推定量):Estimandを導出するためのアルゴリズム Estimates(推定値):Estimatorの出力値 OLSにおけるEstimand, Estimator, Estimates 単回帰を最小二乗法(OLS)で推定する場合のEsti…