多重検定問題

検定

第一種の過誤（Type I error)はアルファエラー(alpha error)とも呼ばれ、実際に差が無いものを誤って差があるといってしまうことです。アワテンボウのエラーと呼ばれる所以です。よく行われるのが α (有意水準）= 0.05として、p値*1がこれを下回ると、２群…

2017-08-23

False Discovery Rateのメモ

検定

FDR: False Discovery Rateは、q-valueとも呼ばれ、SNPやMetabolomeなどで多重検定を行いシグナル検出をするときに、とりあえず可能性のあるシグナルは多めに拾っておきたいというときに使用されます。例えば q-value < 0.05だとすると検定で有意としたもの…

2017-08-23

Permutation テスト

検定 Permutation

遺伝子やメタボロームなどのOmicsデータの解析でよく聞くパーミュテーションテストについて概要をメモします。結論からいうと、 ”知りたい因子の相関係数の正規分布が仮定できないときでも使える” 検定です。例えばデータX（5列1000行）が、下記のような構…

2017-08-22

勾配ブースティング(Gradient Boosting )について

python小ネタ Classification

前回は、CARTについてまとめてみましたが、ブースティングの中では勾配ブースティング(gradient boosting)が特によく用いられます。【木１＋残差→木１＋木２＋残差】と残差について（小さな）木を次々に適用していく（Gradient）モデルです。残差は連続数…

2017-08-22

CARTまとめ（decision tree method)

Classification

決定木：Decision treeは2種類分類木：Classification Tree（目的変数がカテゴリー変数）回帰木：Regresion Tree （目的変数が連続変数）これら決定木を用いた分析が Classification and Regression Tree: CART分析と呼ばれます。色々な解析方法がありま…