【Mostly Harmless Ch.2.1-2.2】セレクションバイアスとRCT

はじめに

この記事では、実証研究を行う上で最も重要な課題の一つであるセレクションバイアス（選択バイアス）とその対処法であるランダム化比較試験（Randomized Controlled Trial; RCT） *1を扱います。

内容の多くは現代の計量経済学の名著、Joshua D. Angrist & Jorn-steffen Pischke (2008)『Mostly Harmless Econometrics』Chapter 2.1”The Selection Problem”, Chapter 2.2"Random Assignment Solves the Selection Problem"に依拠しています。

Angrist & Pischke（2008）で紹介されている有名なRCTの例が、1960年代に米国ミシガン州で行われたペリー幼稚園プロジェクトです。このプロジェクトは就学前の教育プログラムの効果検証を目的に実施されました。結果として、処置群（treatment group）の子供はコントロール群（control group）の子供に比べ、成人後の収入が高く、反社会的な行動への参加率が低いことが示されました。

はじめに
セレクションバイアスって何？
セレクションバイアスを克服するランダム割り当て
- ランダム割り当てを利用した先行研究-Kruger(1999)
- 非実験的データを用いた先行研究-Angrist and Lavy(1999)
終わりに
参考文献

セレクションバイアスって何？

例えば「病院に行くと人は健康になるのか」という問題に関心があるとしましょう。そこで「病院に行く（医療サービスを受ける）」という行為と「健康になる」という結果の因果関係について、データを使った検証方法を考えます。まず考えられるのは、病院に行った（医療サービスを受けた）人と行かなかった人の健康状態を数値化して比較する、というアプローチではないでしょうか。NHIS（National Health Interview Survey；米国の国民健康調査）には「過去12か月における入院の有無」と「現在の健康状態」についてのアンケート結果が集計されています。アンケート結果より、回答者の現在の健康状態について、1を「健康ではない」、5を「大いに健康」として5段階に割り振り、下表に整理します。

グループ	サンプルサイズ	健康状態の平均値	標準誤差
病院に行った	7,794	3.21	0.014
病院に行かなかった	90,049	3.93	0.003
グループ間の差	-	-0.72	-

Angrist and Pischke（2008）より筆者作成　

健康状態の平均値をグループ間で比較すると、「病院に行くほど人は不健康になる」とも読めますがこの解釈は正しいでしょうか。ここで問題として考えられるのは、まず病院に行く人が元々健康ではない、さらに一度病院に行った人であっても一度も病院に行かなかった人に比べると健康ではない、という可能性です。この問題を定式化しましょう。

病院での医療サービスを、 $i$ を各人として $D_i=\{0,1\}$ の二項確率変数を使って表します。同様に、医療サービスの結果である健康状態を $Y_i=\{0,1\}$ とします。観察データ（observational data）を元に因果推論を行うとき、潜在結果（potential outcome）という概念を用います。ここでは潜在結果は2種類あり、 $Y_{1i}$ は病院に行った場合の健康状態、 $Y_{0i}$ は病院に行かなかった場合の健康状態です。 $Y_{1i}-Y_{0i}$ は「 $i$ が病院に行った場合と行かなかった場合の健康状態の差」なので我々が知りたい因果効果（causal effect）を表します。(1)では観察データ $Y_i$ を因果効果 $Y_{1i} - Y_{0i}$ の関数として表しています。

${ \begin{eqnarray} Y_i &=& \left\{\begin{array}{l} Y_{1i} &if &D_i = 1\\ Y_{0i} &if &D_i =0 \\ \end{array} \right. \\ &=& Y_{0i} + (Y_{1i} - Y_{0i} ) D_i \tag{1} \end{eqnarray} }$

重要なのは、我々は $Y_{1i}$ と $Y_{0i}$ のどちらか一方しか観察できないということです。同じ $i$ は病院に行くと行かないの両方を選択できないためです。潜在結果の潜在とは、潜在的に $Y_{1i},Y_{0i}$ が存在しますが、 $D_i$ の取りうる値によって実現する値（つまり我々が観察できる値） $Y_i$ が異なる、という意味です。

因果効果 $Y_{1i} - Y_{0i}$ を観察できない以上、何らかの次善策を考える必要があります。それが医療サービスを受けた人と医療サービスを受けていない人の2つのグループにおける平均的な健康状態の違いを比較することで因果効果を検証しよう、という発想です。

(2)の左辺は、医療サービスの有無による健康状態の条件付き期待値の差分です。つまり2つのグループの平均的な健康状態の違いであり、これを平均処置効果（Average Treatment Effect；ATE）と呼びます。

${ \begin{eqnarray} \underbrace{E[Y_i|D_i = 1] - E[Y_i |D_i =0]}_{Average\,treatment\, effect} &=& E[Y_{1i}|D_i =1] - E[Y_{0i}|D_i =1] +E[Y_{0i}|D_i = 1] - E[Y_{0i}|D_i =0] \\ &=& \underbrace{E[Y_{1i}-Y_{0i}|D_i =1]}_{Average\,treatment\, effect\,on\,the\,treated} +\underbrace{E[Y_{0i}|D_i = 1] - E[Y_{0i}|D_i =0]}_{Selection\, bias}　\tag{2} \end{eqnarray} }$

ATEは上表のグループ間の差 $-0.72$ に相当します。これが右辺1項目「病院に行った人において医療サービスが健康状態に与える平均的な効果」と2項目「セレクションバイアス」とに区別されます。いずれも $Y_i$ の $D_i$ による条件付き期待値の形をとっています。1項目は処置群における平均処置効果（Average Treatment Effect on the Treated；ATT）と呼ばれます。2項目のセレクションバイアスは、医療サービスを受ける人と受けない人の「元々の」健康状態の平均値の差を表しています。「元々健康状態の悪い人は健康な人よりも病院に行きやすい」など健康状態という結果に大きな影響を与える条件が同一ではないというバイアスです。上表のグループ間の差が $-0.72$ となったのは、このセレクションバイアスがマイナスとなったためだと考えられます。セレクションバイアスの存在によって、病院に行った人と行かなかった人の健康状態を単純比較するだけでは、因果効果を観察することができないのです。

(2)を使って、もう一度表を書いてみましょう。(2)の左辺、ATEは上表の①-③に相当します。我々が観察できるのは表の対角成分の①と③のみですが、これを①-②（病院に行った人が病院に行った場合と行かなかった場合の健康状態の差；ATT）の因果効果と、②-③（病院に行った人も行かなかった人もみんな病院に行かなかった場合の健康状態の差）のセレクションバイアスに区別します。

	病院に行った場合の健康状態 ( $Y_{1i}$ )	病院に行かなかった場合の健康状態 ( $Y_{0i}$ )
病院に行った ( $D_i=1$ )	① $E[Y_{1i}~~if~~D_i=1]$	② $E[Y_{0i}~~if~~D_i=1]$
病院に行かなかった ( $D_i=0$ )	-	③ $E[Y_{0i}~~if~~D_i=0]$

ここでは病院に行った人ほど元々の健康状態が良くなかった、つまり②より③が大きいというセレクションバイアスが発生していたと考えられるのです。

セレクションバイアスを克服するランダム割り当て

セレクションバイアスを克服するには、処置・介入 $D_i$ を結果変数 $Y_i$ とは独立に割り振らなければなりません。これをランダム割り当て（random assginment）と呼びます。 $D_i$ と $Y_i$ が独立であるとき、 $Y_i$ の $D_i$ による条件付き期待値と単なる $Y_i$ の期待値の違いがなくなり、セレクションバイアスはゼロとなります。

それでは以下2つの教育分野の先行研究を見てみましょう。どちらも「少人数クラスほど学習効果は高まるのか」というリサーチクエスチョンに対して、異なる方法でセレクションバイアスに対処した実証研究です。

ランダム割り当てを利用した先行研究-Kruger(1999)

Alan B. Krueger, 1999. "Experimental Estimates of Education Production Functions" The Quarterly Journal of Economics, Oxford University Press, vol. 114(2), pages 497-532.

RCTを教育分野で活用した先進的な事例が、少人数クラスと生徒の成績との因果関係を検証したテネシー州のSTAR（Student-Teacher Achievement Ratio）プロジェクトです。
　
労働経済学者にとって、"education production" -教育環境と学習効果の間の因果関係の解明-は長年の課題でした。教育環境をコスト（インプット）、生徒の学習をアウトプットだと考えると、最も高額なインプットは教員採用コストと関連するクラスの規模です。少人数クラスを開講するにはより多くの教員が必要だからです。

これまで非実験的データを用いた多くの教育研究において、クラスの人数と成績の間にはほとんど関連がないと報告されてきました。であるならば生徒の学習効果（成績）を損なうことがない限り、教員採用数を減らした方が教育政策のコストを削減できるという示唆が得られるでしょう。しかしながら、生徒の属するクラスの規模は必ずしもランダムに決まるわけではなく、成績の悪い生徒が少人数クラスに割り振られる可能性もあります。したがってクラス規模と成績を単純比較するだけでは因果関係を検証できません。

Kruger(1999)は、RCTを用いたテネシー州のSTARプロジェクトにおいて、少人数クラスは生徒の成績に明確かつ持続的にプラスに影響することを示しました。STARプロジェクトでは、対象生徒は13~17人の少人数クラス（small）、22~25人の標準クラス（regular）、先生の24時間サポート付きの標準クラス（regular/aide）の3グループに分割されました。処置群が少人数クラス、コントロール群が標準クラスに相当します。

下表は、テストの点数データをアウトカム $Y_i$ とした回帰分析の結果です。4個の識別の結果がプロットされています。Small classの行に、少人数クラスに属することが成績に与える影響を示す回帰係数の推定値が示されており、少人数クラスに所属することで点数が約5ポイント高まる、と読めます。Small classの効果は統計的に有意ですが、他方、Regular/aide classの効果は効果は小さく、統計的に有意ではありません。*2

説明変数\識別	(1)	(2)	(3)	(4)
Small class	4.82 (2.19)	5.37 (1.26)	5.36 (1.21)	5.37 (1.19)
Regular/aide	0.12 (2.23)	0.29 (1.13)	0.53 (1.09)	0.31 (1.07)
Controls	No	No	Yes	Yes
School fixed effect	No	Yes	Yes	Yes

Kruger(1999)より筆者作成　

非実験的データを用いた先行研究-Angrist and Lavy(1999)

Joshua D. Angrist & Victor Lavy, 1999. "Using Maimonides' Rule to Estimate the Effect of Class Size on Scholastic Achievement" The Quarterly Journal of Economics, Oxford University Press, vol. 114(2), pages 533-575.

STARプロジェクトはRCTの模範例ですが、実施期間の長さ、多大なコスト等、ロジスティクス周りの困難な面も浮き彫りになりました。だからこそ、研究者はよりコストのかからない方法でRCTを試みようと、自然実験（natural experiment）や準実験的環境（quasi-experimental）の活用を考えます。

Angrist and Lavy(1999)は、クラス規模の非連続的な変化という自然実験的状況を活用し、非実験的データを実験的なデータとして扱いました。分析対象であるイスラエルでは、1クラスの人数に40人という上限が設けられ、この定員を超えた場合にはクラスを分割する制度*3を採用しています。そのため1学年の生徒数が41人となった場合には、もう1クラスが追加され20人と21人のクラス編成となる訳です。ここで1学年40人の生徒と41人の生徒には、学力や家族構成等の特徴に違いがないと仮定すると、学級規模の変化は生徒の能力とは関係のない偶然の結果、つまりクラス規模はランダムに割り当てられたものと考えることができます。同研究ではクラス規模と成績には有意な負の関係がある、つまりクラス人数が増えるほど学習効果は損なわれるという示唆が得られました。

終わりに

以上、因果関係を検証する上での重要な課題であるセレクションバイアスと、セレクションバイアスに対処したRCTの教育分野の先行研究を紹介しました。

私が初めてこれらの概念に触れたのは学部4年生の頃でした。修士課程の研究計画を作成にあたり、『貧困の経済学』や当時経済セミナーで連載されていた開発経済学とRCTに関する記事を何度も読んだ記憶があります。RCTにはそれまで授業で習っていたミクロ、マクロ、統計学入門等と比べ良い意味で経済学っぽくなくて分かりやすいなという印象を持ちました。数式展開がシンプルながら、現象間の因果関係を検証するというアイデアはとても汎用的に思えたのです。机上の学問だと思っていた経済学が急に現実味を帯びたような、守備範囲が広がったような感覚を覚えました。

私自身はRCTをやったことがないのですが、RCTで研究を進められている方のお話を聞くと、協力先との関係構築や現地への移動など、分析以前の準備が大変だなあという感じがいたします。RCTの普及については著名な研究者が功罪両面のコメントを出しています。これはまた別の記事で書きたいと思います。

次回は、回帰を用いた因果効果の推定について扱います。以上、読んでいただいてありがとうございました。

参考文献

Mostly Harmless Econometrics: An Empiricist's Companion

作者:Angrist, Joahua D.,Pischke, Jorn-steffen
Princeton University Press

Amazon

*1:RCTとはある操作（介入・治療など）を行うこと以外は同一の条件下で，対象の集団を無作為に複数の群（処置群とコントロール群など）に分け、その操作の影響・効果を測定し、明らかにするための比較研究の手法です。2019年のノーベル経済学賞を受賞したデュフロ&バナジーらは、貧困層への援助政策の効果の検証にRCTを用いました。RCTは今や教育や開発だけではなく、環境やエネルギー問題にも応用されています。

*2:推定値の下側の括弧の中に推定値の標準誤差が記載されています。推定値をその標準誤差で割ることで、推定値がゼロであるという帰無仮説を棄却するための検定統計量（t-statistics）を計算することができます。両側検定で有意水準を5%のとき、この値が1.96よりも大きいかどうかを確認すれば有意かどうかが分かります。

*3:マイモニデスの法則と呼ばれるクラス規模の決定ルールであり、日本でも同様の制度が採用されています。

Goodな生活

INTP型コンサルタントが好奇心の受け皿を探す