Data Blue

データの海で遊んでます。

2017-08-01から1ヶ月間の記事一覧

多重検定問題

第一種の過誤(Type I error)はアルファエラー(alpha error)とも呼ばれ、実際に差が無いものを誤って差があるといってしまうことです。アワテンボウのエラーと呼ばれる所以です。 よく行われるのが α (有意水準)= 0.05として、p値*1がこれを下回ると、2群…

False Discovery Rateのメモ

FDR: False Discovery Rateは、q-valueとも呼ばれ、SNPやMetabolomeなどで多重検定を行いシグナル検出をするときに、とりあえず可能性のあるシグナルは多めに拾っておきたいというときに使用されます。 例えば q-value < 0.05だとすると検定で有意としたもの…

Permutation テスト

遺伝子やメタボロームなどのOmicsデータの解析でよく聞くパーミュテーションテストについて概要をメモします。 結論からいうと、 ”知りたい因子の相関係数の正規分布が仮定できないときでも使える” 検定です。 例えばデータX(5列1000行)が、下記のような構…

勾配ブースティング(Gradient Boosting )について

前回は、CARTについてまとめてみましたが、ブースティングの中では勾配ブースティング(gradient boosting)が特によく用いられます。 【木1+残差→木1+木2+残差】 と残差について(小さな)木を次々に適用していく(Gradient)モデルです。 残差は連続数…

CARTまとめ(decision tree method)

決定木:Decision treeは2種類 分類木:Classification Tree(目的変数がカテゴリー変数) 回帰木:Regresion Tree (目的変数が連続変数) これら決定木を用いた分析が Classification and Regression Tree: CART分析と呼ばれます。 色々な解析方法がありま…

Windows機へのXGBoostのインストール

Rの場合は、 > install.packages("xgboost") のみでいいので簡単ですが、 PythonはHPに書いてある通りにしても全くうまくいきませんでした。 最終的には、カルフォルニア大学のHPから、 非公式のバイナリ―ファイルをダウンロードし、 > pip install ダウンロ…

条件付ロジスティック回帰(conditional logistic regression)

臨床研究で対象が稀な時に よく使用される 症例対照研究、 患者さんを一人登録したら、 マッチング因子(年齢・性別等)を 合せた症例対照を一人登録する というのが通常のやり方です。 100人(D+50/D-50)参加してもらい、データを集めました。 さあ暴露因子…