Data Blue

データの海で遊んでます。

Permutation テスト

遺伝子やメタボロームなどのOmicsデータの解析でよく聞く
パーミュテーションテストについて概要をメモします。

 

結論からいうと、

”知りたい因子の相関係数正規分布が仮定できないときでも使える”

検定です。

 

例えばデータX(5列1000行)が、下記のような構造をしているとします。

  1. 興味のある変数 E
  2. アウトカム Y(連続変数)
  3. 交絡因子3つ V1, V2, V3

次にEとYの相関を調べるため下記モデルを当てはめます

  • Y = b0+ b1*E + b2*V1 + b3*V2+ b4*V3 + error

通常はEの相関係数"b1"の t-test において

p < 0.05(alpha)

であれば、有意にEとYは相関すると結論するわけです。

 

しかし、ここで問題。

t-testの前提として、b1が正規分布する

ことが必要です。

 

 

この前提が成り立たなければどうしましょう。

 

ここで、データXについて、

”Yのみランダムに入れ替えて同じモデルを作ること”

を繰返し行います。

例えば1000回行うとb1も1000個できますね。

この1000個のb1の中で、

”観察データでのb1より極端な値は10回”

ということであれば、p = 10/1000  =0.01となります。

 

ポイントはE, V1-3のデータ構造を保持してYのみ並べ替えるので、
E, V1-3の同士の相関が保たれている点だと思います。