Goodな生活

経済学修士→環境コンサル→データサイエンス

実験計画法(1)フィッシャーの三原則と乱塊法

実験計画法

実験計画法(experimental design)とは、取り上げる対称についての結果とそれに影響しそうな要因との関係を調べるため、時間・コスト等の制約を考慮しながら計画的に実験を行い、得られた実験データを解析する一連の方法を指す。

実験結果に影響を及ぼす変数のうち、実験結果に影響を及ぼすものを因子(factor)、因子についての具体的な条件を水準(level)、複数因子の水準の組み合わせによって決まるそれぞれの実験を処置(treatment)と呼ぶ。

分散分析は、得られた実験データより、処置(因子や水準)が結果に与える効果の検定を行うものである。

フィッシャーの実験の3原則

実験計画法の起源はフィッシャーによる農事試験場への適用だと言われる。フィッシャーの行った農事試験場での実験では、結果(収穫量)に影響を与える様々な要因(天候、温度、水分など)を一定にコントロールすることは難しかったため、実験結果にはある程度の「ばらつき(誤差)」を許容した上で、その中から有意義な情報を抽出する必要があった。

誤差には、「偶然誤差(たまたま生じる誤差)」と「系統誤差(処置の差によって生じる誤差)」の2種類があり、これらの扱い方についてフィッシャーは次のような3原則を示している。

  • 反復(replication):同一条件で実験した場合にもデータはばらつくため、同じ処置(条件)の実験を2回以上行うこと。偶然誤差と系統誤差の大きさを評価し、偶然誤差よりも系統誤差が大きければ、処置によって結果に違いが生じた、と判断できる*1
  • 無作為化(ランダム化)(randomization):処置(条件)の水準が複数ある場合に、比較したい処理群をランダムに割り当てること。実験で取り上げていない要因による系統誤差を、偶然誤差に含めることができる。
  • 局所管理(local control):実験の場全体をランダム化することが困難な場合に、局所的に実験条件が均一化されるよう管理すること。このために取り上げられる因子をブロック因子と呼ぶ。処置の効果の推定精度は、ブロック内の偶然誤差の大きさによって決まる。

3原則を満たす乱塊法のイメージ

実験計画法のうち、乱塊法はこれらの原則を満たす方法である。ある農園で、コーヒーの収穫量を改善するために実験を行う。実験結果はコーヒーの収穫量、因子はコーヒーの品種(A,B,C)とする。3品種を1株ずつ育てても、収穫量の違いは偶然によるものか品種の違いなのかが分からない。そこで農園を3つの区画に分け、それぞれ区画で1種類ずつ9株を育てる実験を行う。これが反復。

f:id:good_na_life:20210630085013p:plain
図1 反復

しかしこのとき、区画という別の要因が実験に登場しており、これが収穫量に影響する可能性がある。区画によっては土壌の栄養分や日当たりのよさが異なるかもしれない(系統誤差)。区画の違いによる系統誤差を偶然誤差に転化するには、農場全体で3種類の品種をランダムに植えればよい。

f:id:good_na_life:20210630084945p:plain
図2 反復+無作為化

反復と無作為化の原則を満たす実験デザインを完全無作為法と呼ぶ。図2では農場の中で品種を植える場所はランダムに決まっているものの、「ランダム=公平」ではない。例えば図2の左側の土地条件が良かった場合、品種Aは4株育てられているものの、品種Cは3株、品種Bは2株しか育てられていない。土地条件の良い場所で多く育てられた品種の収穫量は当然多くなる可能性がある。せっかくなら偶然誤差に含まれる土地の影響を切り分けられないかを考える。

そこで農場全体を土地条件が同一であるブロック(条件が同一である実験単位)に分け、各ブロックに3つの品種をランダムに植える。図3ではブロック内の土地条件は同一。これが局所管理の考え方。

f:id:good_na_life:20210630090322p:plain
図3 反復+無作為化+局所管理

このようにフィッシャーの三原則をすべて満たす実験デザインを乱塊法(randomized block design)と呼ぶ(ランダムを’乱’、ブロックを'塊')。乱塊法で得られた実験データの分析法はこちらの記事で扱います。読んでいただいてありがとうございました。

*1:検定の検出力(帰無仮説を棄却する確率、帰無仮説が誤りであることを検出する確率)を上げることができる。