Permutation テスト
遺伝子やメタボロームなどのOmicsデータの解析でよく聞く
パーミュテーションテストについて概要をメモします。
結論からいうと、
”知りたい因子の相関係数の正規分布が仮定できないときでも使える”
検定です。
例えばデータX(5列1000行)が、下記のような構造をしているとします。
- 興味のある変数 E
- アウトカム Y(連続変数)
- 交絡因子3つ V1, V2, V3
次にEとYの相関を調べるため下記モデルを当てはめます
- Y = b0+ b1*E + b2*V1 + b3*V2+ b4*V3 + error
通常はEの相関係数"b1"の t-test において
p < 0.05(alpha)
であれば、有意にEとYは相関すると結論するわけです。
しかし、ここで問題。
t-testの前提として、b1が正規分布する
ことが必要です。
この前提が成り立たなければどうしましょう。
ここで、データXについて、
”Yのみランダムに入れ替えて同じモデルを作ること”
を繰返し行います。
例えば1000回行うとb1も1000個できますね。
この1000個のb1の中で、
”観察データでのb1より極端な値は10回”
ということであれば、p = 10/1000 =0.01となります。
ポイントはE, V1-3のデータ構造を保持してYのみ並べ替えるので、
E, V1-3の同士の相関が保たれている点だと思います。