Goodな生活

Goodな生活

データサイエンスと弦楽器を探究する

実験計画法(2)乱塊法

分散分析は実験を行った後に得られたデータを分析する手法。実験計画法ではそもそもどのような実験を行ったのか(実験のデザイン)も考える必要がある。

フィッシャーの実験の三原則

  • 反復:同一条件で実験した場合にもデータはばらつくため、同じ処置(条件)の割り当てを少なくとも2つ以上の実験単位(農事試験における一定面積の農地等)で行うこと。誤差分散(誤差的なばらつき)を評価し、推定の精度を向上させる(検定の検出力*1を上げる)ことを目的とする。
  • 無作為化(ランダム化):処置(条件)の各水準を実験単位にランダムに割り当てること。実験に伴う誤差には偶然誤差と系統誤差の2種類がある。偶然誤差は各実験単位において確率的に生じる誤差であり、系統誤差は観察したい真の処置効果から特定の方向に偏ったバイアスを指す。系統誤差の影響を防ぐためにランダム化を行う。
  • 局所管理:実験の場を同種のブロックに区切り、局所的に実験条件の均一性を保つこと。処置効果の推定精度はブロック内の誤差分散の程度により決定されるため、より効率的な実験を行うことができる。

乱塊法

農園で3つのコーヒー品種(A,B,C)を育てて収穫量を比較する実験を行うとする。3品種を1株ずつ育てても、その違いは偶然によるものか品種の違いなのかが分からない。そこで各品種を何株かずつ育てる必要がある。ここで農園を3つの区画に分け、それぞれ区画で1種類ずつ9株を育てる実験を行う。

f:id:good_na_life:20210630085013p:plain
図1 反復

しかしこの実験で品種A,B,C間で収穫量に差があった場合、それが品種による違いなのか区画(土地)による違いなのか分からない。区画によっては土壌の栄養分や日当たりのよさが異なるかもしれない。単に測定を反復する(繰り返す)だけでは、収穫量に一定の方向の影響を及ぼす系統誤差が混入する可能性がある。この系統誤差の影響に対処するため、農場全体で3種類をランダムに植えればよい。すると「区画(土地)の違いによる系統誤差」を「偶然の誤差」に転化することができる。

f:id:good_na_life:20210630084945p:plain
図2 反復+無作為化

反復と無作為化の原則を満たす実験デザインを完全無作為法と呼ぶ。図2では農園の中で品種を植える場所はランダムに決まっている。例えば図2の左側の土地条件が良かった場合、品種Aは4株育てられているものの、品種Cは3株、品種Bは2株しか育てられていない。土地条件の良い場所で多く育てられた品種の収穫量は当然多くなる可能性がある。つまり「ランダム=公平」ではない。もちろん図2では土地条件の影響は誤差に織り込まれている。しかしせっかくなら誤差に含まれる土地の影響を切り分けられないかを考える。これが局所管理の考え方。

ここで農場全体を土地条件が同一であるブロック(条件が同一である実験単位)に分ける。各ブロックで3つの品種をランダムに植える。ランダム化を行うのは土地条件以外の要因が系統誤差を生むのを防ぐため。図2では品種によって土地条件の良し悪しに違いがあった。図3では各ブロックの土地条件は異なるかもしれないが、ブロック内の土地条件は同一。

f:id:good_na_life:20210630090322p:plain
図3 反復+無作為化+局所管理

このようにフィッシャーの三原則をすべて満たす実験デザインを乱塊法(randomized block design)と呼ぶ。実験を行う場をいくつかのブロックに分けており、ブロックが実験要因の一つのようになっている(ブロック因子)。ブロックの例として、農場の区画や人(実験者や評価者)がある。

乱塊法の構造式(モデル)

土地条件が同一である環境をブロック因子としrで表す。分散分析の構造式にブロック因子の項を足せばよい。一元配置の場合は、

 {
\begin{align}
y_{ij} &= μ + α_i + r_j + ε_{ij}, \quad ε_{ij} \sim \mathcal{N}(0,σ^2) \tag{1} 
\end{align}
}

因子Aとブロックrとの交互作用は考えない。
二元配置の場合は、

 {
\begin{align}
y_{ijk} = μ + α_i + β_j + (αβ)_{ij} + r_k + ε_{ijk}, \quad ε_{ijk} \sim \mathcal{N}(0,σ^2) \tag{2}
\end{align}
}

同様に因子A、Bとブロックrとの交互作用は考えない。交互作用は実験誤差でありε_{ijk}に含まれる。

乱塊法の検定精度

分散分析では、データのばらつき(変動)を因子によるものと残差(誤差)によるものに分解した。ここでは完全無作為法と乱塊法の検定の精度を考える。完全無作為法の場合、ブロック因子の変動が残差変動に含まれる。乱塊法ではブロック因子の変動を切り出すため、残差変動(誤差分散)が小さくなる。誤差分散が小さくなる点では乱塊法は完全無作為法よりも検定精度が高い。一方、残差(誤差)の自由度が小さくなる点では、乱塊法は完全無作為法よりも検定精度が低い*2。一般的に、残差(誤差)の自由度を10以上確保できるならば乱塊法が有利だと考える。

*1:帰無仮説を棄却する確率、帰無仮説が誤りであることを検出する確率。

*2:変動と同じく自由度も因子と誤差(残差)ぞれぞれの総和がデータ全体の自由度N-1と一致する。乱塊法を用いるとブロック因子の数-1個の自由度が新たに登場するため残差(誤差)の自由度は小さくなる。自由度は誤差分散を推定するときの分母であるため、これが小さくなると誤差分散の推定値が大きくなる。