2021-05-01から1ヶ月間の記事一覧
最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…
線形回帰モデルの問題点 過学習を避けるための方法 変数増減 縮小推定 次元削減 正則化 L1(Lasso)正則化とL2(Ridge)正則化 Elastic Net推定 参考 2022/08/27 統計検定準1級の学習時に内容修正 線形回帰モデルの問題点 回帰モデルの説明変数の数が大きくなり…
アンケートの自由記述欄などの文字列のデータに対して、特定の文字列を含むかどうかでダミー変数を作成する場合のコード。例えば頻出語句やキーワードなどをあらかじめ指定しておけば、アンケート回答者の属性にとって頻出傾向の違い等を分析することができ…
記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …
分位数に従ってデータのカテゴリー化(連続値→離散値)する方法。データの情報量を落とす操作なので使う場面は相当限られる(なんらかの理由で表ではなくグラフを作成する場合など?) [quantile]を使ったデータのカテゴリー化 Rのデフォルトデータセットiri…
連番の数字の先頭2桁を取り出すときのコード。 例えばxを995から1005までの整数とし、ゼロを含む先頭2桁を取り出す。 > x <- 995:1005 > x [1] 995 996 997 998 999 1000 1001 1002 1003 1004 1005 > class(x) [1] "integer" はじめの5つのみ3桁の整数なので…
日比谷のゲシャリーコーヒーさんのセミナーに参加しました。講師は阪本義治さんでした。一昨年にスペシャルティコーヒーを飲み始めてから、生産国・地域とは別に「ナチュラル」やら「ウォッシュト」という言葉を目にするようになり、体系的に学ぶ良い機会だ…