職場の先輩が紹介されてて読み始めた。半年ぐらいかかった。面白い、けどちゃんと数式を追って理解できてないところが出てきてモヤモヤした。著者の「統計的因果推論」も読みたくなった。線形方程式をベースにして変数を調整することで因果的な情報を見ようとする、だけど統計的な傾向しか見えない。自分が学んできたインパクト評価の話と因果ダイアグラムがどう結びつくのか、もっと勉強しないと。
序章 「因果推論」という新しい科学
- ゴルトン、ピアソンに端を発する近代統計学においては因果関係を表す数学的な言語を扱ってこなかった。「相関≠因果」はどの教科書を開いても載ってる。相関はわかる。結局因果関係が何なのかが書かれていない。パス解析は未発達のまま何年も放置されてきた
- もし〜なら、という反事実的推論は経験的な観察からは証明できない。デイビット・ヒュームは因果性について①規則性(原因は結果に先立つ)、②反事実(第1の事象がなかった場合、第2の事象は存在しない)を定義していた。
第一章 因果のはしご
- 想像上の事実である反事実は観察された事実であるデータと相性が悪い。しかし人間の知性は事実に反することを推定することができる
- 哲学者たちは因果関係の概念を数式化するために確率の言語(不確実性を扱える言語)に飛びつき、計量経済学の分野ではグレンジャー因果性やベクトル自己相関という言葉が因果関係を表す言葉として使われている
第二章 シューアル・ライトが起こした革命
- ゴルトンは平均より高い身長の父親から平均より低い息子が生まれる「平均への回帰」を因果関係で説明しようと試みた(できなかった)
- 弟子のピアソンは因果関係は特殊な相関関係と考えた(相関係数が1か−1という決定論的になっている)
- ライトはある変数の値がもう一つの変数の変動にどのくらい影響するか(パス係数)に着目
- パス解析には分析対象に関する科学的思考が試される一方、統計学では決められた手順に従うのが良しとされた
第三章 結果から原因へ
- ベイズは神学的な意図により、「絶対にあり得ない仮説」が「ありそうにない」「あり得る」に変わるためにはどのような条件を満たすか疑問を持った
- Lからxの確率を推定するのはやさしいのに、逆にxからLを推定するのが難しい非対称性はLが原因となりxが結果になるという事実から生じている。
- ベイズルールは条件付き確率という概念の定義ではなく、「〜を既知として考慮に入れた場合」という言葉を忠実に表現する経験的な命題
第四章 交絡因子を取り除く
- 今やランダム化が標準的な考えになっているが、フィッシャー以外の統計学者にとって実験の条件(区画と肥料
の組み合わせ)をランダムに変えることは不自然だった。
- 交絡はいわば推定したいもの(因果効果)と実際に推定しているものの不一致。歴史的には比較不可能性と隠れた第三の変数を中心に交絡という概念が発展してきた
- 手続き的な定義により、統計的検定の枠組みの中で交絡因子の特性を記述しようとしてきた
第五章 タバコは肺がんの原因か
- タバコ会社の内部告発者による「タバコは肺がんを誘発する因子の一つ」だとする文書が発見された
第六章 パラドックスの詰め合わせ
- 人間は共通原因定理が存在するかのように、何かが起こるたび常に因果関係で説明を加えようとする
- 統計学者は五世代にもわたって因果関係の必要性を感じると同時に因果関係について説明する適切な言語の不足を感じていた
第七章 介入
- シューアル・ライトがパスダイアグラムを線形方程式の文脈で扱ったのは因果効果がパス係数で表せるため。調整の式の計算が簡単になる点。
- 研究者たちは調整済み(偏)回帰係数には調整なしの回帰係数よりも因果的な情報が含まれると考えたが、統計的な傾向を表すだけである。
- 偏回帰係数は因果効果を表す場合も表さない場合もあり、データだけでは両者の違いを判断できない
- 因果効果を表すパス係数はデータポイントの傾向を表す回帰係数から算出できるが、両者は全く違うもの。
- 注意すべきは回帰を基礎にした調整が有効なのは線形モデルについてのみ。非線形の相互作用はモデル化できない
第八章 反事実
- 人間はある可能世界が物理的に存在するか、形而上的なものかを厳密に区別せず、反事実的なコミュニケーションを行える
- コンピュータ科学者による「表現問題」は人間はある特殊な方法によってあらゆる可能性の中で現実に近しい可能世界を思い浮かべる
- 人間は発生確率の多いもの、人間の行動に原因を求めることが多く、自分の力でどうすることもできないことは原因と考えないことが多い
- 線形モデルが採用されるのは便宜上の理由であり、気候モデルには物理学者、気候学者の研究成果が反映されておりはるかに信頼できる
第九章 媒介
- 媒介変数(独立変数と目的変数の関係づけるもの)を一定に保つべきにもかかわらず調整してしまう(媒介の誤謬)が行われてきた
- 間接効果を扱うには二重に入れ子になった反事実が必要だった
- 線形モデルは相互作用を許容しないため間接効果の分析が容易
- 線形モデルにおいて個々の経路の効果は足し合わせることができ、個々の経路のパス係数は掛け合わせることができる前提が非線形モデルでは誤った結果を導く
- 直接効果、間接効果が何かを理解しようとせず、線形モデルを修正しようとしてしまった
第一〇章 ビッグデータ、AI、ビッグクエスチョン
- 現在の機械学習は有限の標本から確率分布を推定する効率的な手段を提供しているが、確率分布から因果関係を導き出すことはできない
- 哲学の多くは科学の進歩とともに解けたが、自由意志の問題はいまだに解けない謎(スキャンダル)として残っている
- 哲学者の中には自由意志と決定論を対立しないとみなす、神経レベルでは決定論的なプロセスに見えるが、認知レベルでは選択の自由があると感じる
- 仮に自由意志が幻想であるならば人間はなぜその幻想を持つのか