Goodな生活

経済学→環境コンサル→データサイエンティスト

実験計画法(1)フィッシャーの三原則と乱塊法

実験計画法 フィッシャーの実験の3原則 3原則を満たす乱塊法のイメージ 実験計画法 実験計画法(experimental design)とは、取り上げる対称についての結果とそれに影響しそうな要因との関係を調べるため、時間・コスト等の制約を考慮しながら計画的に実験を…

マルコフ連鎖

推移確率行列 定常分布 確率推移のイメージ 極限分布 MCMC メトロポリス法 推移確率行列 確率変数がマルコフ連鎖であるとき、1期前の状態のみに依存し、それ以前の状態には依存しないことを意味する。過去のすべての履歴が直前の状態に集約される、とも言え…

ベイズ判別

条件付き確率とベイズの定理 正規分布のベイズ判別 判別関数 参考文献 条件付き確率とベイズの定理 ベイズ判別の基本的な考え方はベイズの定理に基づく。例えばある患者の発熱という症状について風邪かインフルエンザのどちらの原因で生じたかを判断したいと…

サポートベクターマシン

線形判別ではデータの平均ベクトルや分散共分散行列を用いて判別法を構成した。サポートベクターマシンはこれらの判別法とは全く異なる考え方に基づく。 サポートベクターマシン(SVM) 最適化問題の立式 サポートベクターマシン(SVM)のカーネル法 高次元…

クラスター分析(階層型分類法の基本事項)

クラスター分析は異なる性質が混ざった多数の個体を、個体間の類似度に基づいて似たものの集まり(クラスター)を作るための手法。判別分析ではどの群に属するかがあらかじめわかっているデータに基づいて判別関数(判別方法)を構成したのに対し、クラスタ…

判別分析(2)マハラノビスの距離

フィッシャーの線形判別関数は、青(1群)と赤(2群)から観測されたデータを、変数の線形結合で表される軸上へ射影し、それぞれの群の分離度を表す群間分散と、各群内のデータのばらつき度合いを示す郡内分散の比を最大にする軸(直線)を最適な射影軸とす…

判別分析(1)線形判別関数

線形判別分析 判別分析の目的は量的なデータを元に質的な結果を予想すること。例えば身長や体重、血圧といった量的なデータを元に、その人が健康か不健康かを判断する。線形判別とはデータを直線で分け、データが直線の左右どちらにあるかを判別する。図1は2…

因子分析の直感的理解

主成分分析と因子分析の違い 1因子モデル 1因子モデルの図示 因子についての仮定条件 連立方程式を解く 2因子モデル 2因子モデルの図示 因子についての仮定条件 共通性 独自性 因子の回転 参考文献 主成分分析と因子分析の違い 主成分分析と同様、因子分析も…

主成分分析の直感的理解

最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…

【統計検定準1級】非線形回帰における正則化

線形回帰では直線による回帰しかできなかった一方、説明変数を変数変換したものを説明変数に加えることで非線形回帰ができる。を変数変換したものを基底関数と呼ぶ。基底関数をたくさん使うことで説明変数をいくらでも増やすことができるが、過学習*1が起こ…

【R】特定の文字の含有有無によるダミー変数の作成[paste][str_detect]

R

アンケートの自由記述欄などの文字列のデータに対して、特定の文字列を含むかどうかでダミー変数を作成する場合のコード。例えば頻出語句やキーワードなどをあらかじめ指定しておけば、アンケート回答者の属性にとって頻出傾向の違い等を分析することができ…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

【R】分位数を決めてデータをカテゴリー化する[quantile][cut]

R

分位数に従ってデータのカテゴリー化(連続値→離散値)する方法。データの情報量を落とす操作なので使う場面は相当限られる(なんらかの理由で表ではなくグラフを作成する場合など?) [quantile]を使ったデータのカテゴリー化 Rのデフォルトデータセットiri…

【R】ゼロを含む先頭n桁を取り出す[formatC][substr]

R

連番の数字の先頭2桁を取り出すときのコード。 例えばxを995から1005までの整数とし、ゼロを含む先頭2桁を取り出す。 > x <- 995:1005 > x [1] 995 996 997 998 999 1000 1001 1002 1003 1004 1005 > class(x) [1] "integer" はじめの5つのみ3桁の整数なので…

GESHARY COFFEE ゲイシャ体験セミナー『精製による味の違い』

日比谷のゲシャリーコーヒーさんのセミナーに参加しました。講師は阪本義治さんでした。一昨年にスペシャルティコーヒーを飲み始めてから、生産国・地域とは別に「ナチュラル」やら「ウォッシュト」という言葉を目にするようになり、体系的に学ぶ良い機会だ…