Goodな生活

経済学修士→環境コンサル→データサイエンス

R

【R】特定の文字の含有有無によるダミー変数の作成[paste][str_detect]

R

アンケートの自由記述欄などの文字列のデータに対して、特定の文字列を含むかどうかでダミー変数を作成する場合のコード。例えば頻出語句やキーワードなどをあらかじめ指定しておけば、アンケート回答者の属性にとって頻出傾向の違い等を分析することができ…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …

【R】分位数を決めてデータをカテゴリー化する[quantile][cut]

R

分位数に従ってデータのカテゴリー化(連続値→離散値)する方法。データの情報量を落とす操作なので使う場面は相当限られる(なんらかの理由で表ではなくグラフを作成する場合など?) [quantile]を使ったデータのカテゴリー化 Rのデフォルトデータセットiri…

【R】ゼロを含む先頭n桁を取り出す[formatC][substr]

R

連番の数字の先頭2桁を取り出すときのコード。 例えばxを995から1005までの整数とし、ゼロを含む先頭2桁を取り出す。 > x <- 995:1005 > x [1] 995 996 997 998 999 1000 1001 1002 1003 1004 1005 > class(x) [1] "integer" はじめの5つのみ3桁の整数なので…

【R】【データ前処理】はじめてdplyrを使うときに調べたこと

R

参考にした本 必要な準備 インストール データセットを読み込む フィルターをかける 一つの条件 複数条件の場合 条件の否定 グループごとに集計する カウントする 平均や分散を出す 複数の単位で集計 一回集計したあとに再度集計 条件下で新たな変数を作る …

【統計検定準1級】回帰診断

はじめに この記事では、回帰分析を行うとき、誤差項の仮定が成立しているかどうかを評価する、回帰診断(regression diagnosis)について扱います。統計検定準1級レベルの内容です。 はじめに 誤差項の仮定 回帰診断 ①予測値に対する残差のプロット ②残差の…

【統計検定準1級】時系列解析(3)系列相関

はじめに この記事では時系列モデルにおける系列相関(serial correlation)の検定方法と、系列相関の疑いがあるときの対処法について扱います。ダービー・ワトソン(Durbin-Watoson)比(検定)、コクラン・オーカット法に関する、統計検定準1級レベルの内…

【統計検定準1級】2次元正規分布と条件付き確率分布の求め方【R】

2次元正規分布の導出方法と、2次元正規分布の条件付き確率分布の導出を扱います。統計検定準1級で頻出のテーマです。

ざっくり理解する中心極限定理

中心極限定理(central limit theorem ; CLT)と大数の法則との違い、証明、イメージについての簡単に書きました。