Goodな生活

経済学→環境コンサル→データサイエンティスト

マルコフ連鎖

推移確率行列 定常分布 確率推移のイメージ 極限分布 MCMC メトロポリス法 推移確率行列 確率変数がマルコフ連鎖であるとき、1期前の状態のみに依存し、それ以前の状態には依存しないことを意味する。過去のすべての履歴が直前の状態に集約される、とも言え…

ベイズ判別

条件付き確率とベイズの定理 正規分布のベイズ判別 判別関数 参考文献 条件付き確率とベイズの定理 ベイズ判別の基本的な考え方はベイズの定理に基づく。例えばある患者の発熱という症状について風邪かインフルエンザのどちらの原因で生じたかを判断したいと…

サポートベクターマシン

線形判別ではデータの平均ベクトルや分散共分散行列を用いて判別法を構成した。サポートベクターマシンはこれらの判別法とは全く異なる考え方に基づく。 サポートベクターマシン(SVM) 最適化問題の立式 サポートベクターマシン(SVM)のカーネル法 高次元…

クラスター分析(階層型分類法の基本事項)

クラスター分析は異なる性質が混ざった多数の個体を、個体間の類似度に基づいて似たものの集まり(クラスター)を作るための手法。判別分析ではどの群に属するかがあらかじめわかっているデータに基づいて判別関数(判別方法)を構成したのに対し、クラスタ…

判別分析(2)マハラノビスの距離

フィッシャーの線形判別関数は、青(1群)と赤(2群)から観測されたデータを、変数の線形結合で表される軸上へ射影し、それぞれの群の分離度を表す群間分散と、各群内のデータのばらつき度合いを示す郡内分散の比を最大にする軸(直線)を最適な射影軸とす…

判別分析(1)線形判別関数

線形判別分析 判別分析の目的は量的なデータを元に質的な結果を予想すること。例えば身長や体重、血圧といった量的なデータを元に、その人が健康か不健康かを判断する。線形判別とはデータを直線で分け、データが直線の左右どちらにあるかを判別する。図1は2…

【統計検定準1級】因子分析の直感的理解

主成分分析と因子分析の違い 1因子モデル 1因子モデルの図示 因子についての仮定条件 連立方程式を解く 2因子モデル 2因子モデルの図示 因子についての仮定条件 共通性 独自性 因子の回転 参考文献 主成分分析と因子分析の違い 主成分分析と同様、因子分析も…

【統計検定準1級】主成分分析の直感的理解

最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…

【統計検定準1級】線形回帰モデルと正則化

線形回帰モデルの問題点 過学習を避けるための方法 変数増減 縮小推定 次元削減 正則化 L1(Lasso)正則化とL2(Ridge)正則化 Elastic Net推定 参考 2022/08/27 統計検定準1級の学習時に内容修正 線形回帰モデルの問題点 回帰モデルの説明変数の数が大きくなり…

【R】特定の文字の含有有無によるダミー変数の作成[paste][str_detect]

R

アンケートの自由記述欄などの文字列のデータに対して、特定の文字列を含むかどうかでダミー変数を作成する場合のコード。例えば頻出語句やキーワードなどをあらかじめ指定しておけば、アンケート回答者の属性にとって頻出傾向の違い等を分析することができ…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

【R】分位数を決めてデータをカテゴリー化する[quantile][cut]

R

分位数に従ってデータのカテゴリー化(連続値→離散値)する方法。データの情報量を落とす操作なので使う場面は相当限られる(なんらかの理由で表ではなくグラフを作成する場合など?) [quantile]を使ったデータのカテゴリー化 Rのデフォルトデータセットiri…

【R】ゼロを含む先頭n桁を取り出す[formatC][substr]

R

連番の数字の先頭2桁を取り出すときのコード。 例えばxを995から1005までの整数とし、ゼロを含む先頭2桁を取り出す。 > x <- 995:1005 > x [1] 995 996 997 998 999 1000 1001 1002 1003 1004 1005 > class(x) [1] "integer" はじめの5つのみ3桁の整数なので…

GESHARY COFFEE ゲイシャ体験セミナー『精製による味の違い』

日比谷のゲシャリーコーヒーさんのセミナーに参加しました。講師は阪本義治さんでした。一昨年にスペシャルティコーヒーを飲み始めてから、生産国・地域とは別に「ナチュラル」やら「ウォッシュト」という言葉を目にするようになり、体系的に学ぶ良い機会だ…

東京湾から600kmの鳥島にアホウドリを見に行った

にっぽん丸に乗って鳥島へ 鳥島クルーズの特徴 鳥島レクチャー 鳥島周遊 最後に 参考 にっぽん丸に乗って鳥島へ かねてからお世話になっている方から「鳥島を見に行くツアーがある」と聞き、迷わず参加を決めました。このツアーは商船三井客船「にっぽん丸」…