Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す

2021-05-01から1ヶ月間の記事一覧

【統計検定準1級】主成分分析の直感的理解

最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…

【統計検定準1級】線形回帰モデルと正則化

線形回帰モデルの問題点 過学習を避けるための方法 変数増減 縮小推定 次元削減 正則化 L1(Lasso)正則化とL2(Ridge)正則化 Elastic Net推定 参考 2022/08/27 統計検定準1級の学習時に内容修正 線形回帰モデルの問題点 回帰モデルの説明変数の数が大きくなり…

【R】特定の文字の含有有無によるダミー変数の作成[paste][str_detect]

R

アンケートの自由記述欄などの文字列のデータに対して、特定の文字列を含むかどうかでダミー変数を作成する場合のコード。例えば頻出語句やキーワードなどをあらかじめ指定しておけば、アンケート回答者の属性にとって頻出傾向の違い等を分析することができ…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

【R】分位数を決めてデータをカテゴリー化する[quantile][cut]

R

分位数に従ってデータのカテゴリー化(連続値→離散値)する方法。データの情報量を落とす操作なので使う場面は相当限られる(なんらかの理由で表ではなくグラフを作成する場合など?) [quantile]を使ったデータのカテゴリー化 Rのデフォルトデータセットiri…

【R】ゼロを含む先頭n桁を取り出す[formatC][substr]

R

連番の数字の先頭2桁を取り出すときのコード。 例えばxを995から1005までの整数とし、ゼロを含む先頭2桁を取り出す。 > x <- 995:1005 > x [1] 995 996 997 998 999 1000 1001 1002 1003 1004 1005 > class(x) [1] "integer" はじめの5つのみ3桁の整数なので…

GESHARY COFFEE ゲイシャ体験セミナー『精製による味の違い』

日比谷のゲシャリーコーヒーさんのセミナーに参加しました。講師は阪本義治さんでした。一昨年にスペシャルティコーヒーを飲み始めてから、生産国・地域とは別に「ナチュラル」やら「ウォッシュト」という言葉を目にするようになり、体系的に学ぶ良い機会だ…