【統計検定準1級】主成分分析の直感的理解

統計学

最大化問題の立式最大化問題を解く寄与率データの標準化主成分負荷量（因子負荷量）主成分得点参考文献最大化問題の立式主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。図1このデータの特徴は座標という2次元の…

2021-05-30

【統計検定準1級】線形回帰モデルと正則化

統計学

線形回帰モデルの問題点過学習を避けるための方法変数増減縮小推定次元削減正則化 L1(Lasso)正則化とL2(Ridge)正則化 Elastic Net推定参考 2022/08/27 統計検定準1級の学習時に内容修正線形回帰モデルの問題点回帰モデルの説明変数の数が大きくなり…

#統計検定 #統計検定準1級 #正則化

2021-05-28

【R】特定の文字の含有有無によるダミー変数の作成[paste][str_detect]

R

アンケートの自由記述欄などの文字列のデータに対して、特定の文字列を含むかどうかでダミー変数を作成する場合のコード。例えば頻出語句やキーワードなどをあらかじめ指定しておけば、アンケート回答者の属性にとって頻出傾向の違い等を分析することができ…

#R #RStudio

2021-05-27

【R】記述統計量の算出[summary][describe][describeBy]

R 統計学

記述統計量（基本統計量）を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

#R #RStudio

2021-05-26

【R】分位数を決めてデータをカテゴリー化する[quantile][cut]

R

分位数に従ってデータのカテゴリー化（連続値→離散値）する方法。データの情報量を落とす操作なので使う場面は相当限られる（なんらかの理由で表ではなくグラフを作成する場合など？） [quantile]を使ったデータのカテゴリー化 Rのデフォルトデータセットiri…

#R #RStudio

2021-05-25

【R】ゼロを含む先頭n桁を取り出す[formatC][substr]

R

連番の数字の先頭2桁を取り出すときのコード。例えばxを995から1005までの整数とし、ゼロを含む先頭2桁を取り出す。 > x <- 995:1005 > x [1] 995 996 997 998 999 1000 1001 1002 1003 1004 1005 > class(x) [1] "integer" はじめの5つのみ3桁の整数なので…

#R #RStudio