Goodな生活

経済学修士→環境コンサル→データサイエンス

6月の振り返り:練習メニューを固定化し、見直し&修正のサイクルを細かくする

早いもので6月も3分の2が過ぎました。発表会まで残り166日です。前回の振り返りから2週間経ちました。6/8-6/20の練習での気づき、良かったこと、課題を書きます。 出典:フリー素材ぱくたそ(www.pakutaso.com) 良かった点・気づき 2日に1回以上のペースで…

マルコフ連鎖

推移確率行列 定常分布 確率推移のイメージ 極限分布 MCMC メトロポリス法 推移確率行列 確率変数がマルコフ連鎖であるとき、1期前の状態のみに依存し、それ以前の状態には依存しないことを意味する。過去のすべての履歴が直前の状態に集約される、とも言え…

ベイズ判別

条件付き確率とベイズの定理 正規分布のベイズ判別 判別関数 参考文献 条件付き確率とベイズの定理 ベイズ判別の基本的な考え方はベイズの定理に基づく。例えばある患者の発熱という症状について風邪かインフルエンザのどちらの原因で生じたかを判断したいと…

サポートベクターマシン

線形判別ではデータの平均ベクトルや分散共分散行列を用いて判別法を構成した。サポートベクターマシンはこれらの判別法とは全く異なる考え方に基づく。 サポートベクターマシン(SVM) 最適化問題の立式 サポートベクターマシン(SVM)のカーネル法 高次元…

バイオリン弾きとして理想の音を言語化する

自分の出したい音はどんなものか。どのように弾きたいのか。思い浮かんだ言葉をひたすら書き出してみる。 出典:フリー素材ぱくたそ(www.pakutaso.com) 楽器や曲を弾いているようでそれらに弾かされている。アクティブでありパッシブ 弓を弦に押し付けるの…

クラスター分析(階層型分類法の基本事項)

クラスター分析は異なる性質が混ざった多数の個体を、個体間の類似度に基づいて似たものの集まり(クラスター)を作るための手法。判別分析ではどの群に属するかがあらかじめわかっているデータに基づいて判別関数(判別方法)を構成したのに対し、クラスタ…

判別分析(2)マハラノビスの距離

フィッシャーの線形判別関数は、青(1群)と赤(2群)から観測されたデータを、変数の線形結合で表される軸上へ射影し、それぞれの群の分離度を表す群間分散と、各群内のデータのばらつき度合いを示す郡内分散の比を最大にする軸(直線)を最適な射影軸とす…

『キム・フィルビー』誰からも信用されながら誰も信用しなかった男

『KGBの男』に続き、同著者ベン・マッキンタイアーの『キム・フィルビー』を読んだ。英国MI6の一員であり、冷戦下ではMI6ワシントン支局長まで勤めたものの、長年にわたりソビエトのスパイだったことが明らかになった、キム・フィルビーのドキュメンタリーで…

判別分析(1)線形判別関数

線形判別分析 判別分析の目的は量的なデータを元に質的な結果を予想すること。例えば身長や体重、血圧といった量的なデータを元に、その人が健康か不健康かを判断する。線形判別とはデータを直線で分け、データが直線の左右どちらにあるかを判別する。図1は2…

5月の振り返り(その2)「弓の持ち方の試行錯誤」

5月前半のレッスンで弓を柔らかく持つ、というお話を聞きました。5月の後半は弓の持ち方(フォーム)を色々と試しました。 出典:フリー素材ぱくたそ(www.pakutaso.com) 弓の持ち方 これまでの持ち方だと右手の小指(それから親指も)が常にピンと伸びきっ…

因子分析の直感的理解

主成分分析と因子分析の違い 1因子モデル 1因子モデルの図示 因子についての仮定条件 連立方程式を解く 2因子モデル 2因子モデルの図示 因子についての仮定条件 共通性 独自性 因子の回転 参考文献 主成分分析と因子分析の違い 主成分分析と同様、因子分析も…

主成分分析の直感的理解

最大化問題の立式 最大化問題を解く 寄与率 データの標準化 主成分負荷量(因子負荷量) 主成分得点 参考文献 最大化問題の立式 主成分分析の目的はデータの要約。の2変量のデータの散布図に、直交する2直線を引く。 図1このデータの特徴は座標という2次元の…

統計検定準1級:非線形回帰における正則化

線形回帰では直線による回帰しかできなかった一方、説明変数を変数変換したものを説明変数に加えることで非線形回帰ができる。を変数変換したものを基底関数と呼ぶ。基底関数をたくさん使うことで説明変数をいくらでも増やすことができるが、過学習*1が起こ…

【R】特定の文字の含有有無によるダミー変数の作成[paste][str_detect]

R

アンケートの自由記述欄などの文字列のデータに対して、特定の文字列を含むかどうかでダミー変数を作成する場合のコード。例えば頻出語句やキーワードなどをあらかじめ指定しておけば、アンケート回答者の属性にとって頻出傾向の違い等を分析することができ…

【R】記述統計量の算出[summary][describe][describeBy]

記述統計量(基本統計量)を算出する方法。最もオーソドックスなのはsummary関数。Rのデフォルトデータセットのirisを使う。連続値データは四分位点、カテゴリカルデータはサンプル数が表示される。 > data(iris) > summary(iris) Sepal.Length Sepal.Width …