Data Blue

データの海で遊んでます。

Classification

Irisデータで勾配ブースティング

実際にxgboostを使用して、Gradient Boostingをしてみます。 今回は、Irisデータを7:3にトレーニングとテストに分けて、XGboostをやってみます。 Petal.Widthがデータ平均以下/以上の予測を行うことにします。 とりあえず、R上で下記を走らせてみます。 # Pr…

ロジスティック回帰の変数選択はちょっと違う

多変量回帰において、どれが有効なモデルかわからないときに、なんでもかんでも、とにかく変数を突っ込んでみて、有意だったら残すというアプローチがあります(e.g. ステップダウン、ステップワイズ等)。 良い予測モデルを得るのが目的の場合には上記のやり…

勾配ブースティング(Gradient Boosting )について

前回は、CARTについてまとめてみましたが、ブースティングの中では勾配ブースティング(gradient boosting)が特によく用いられます。 【木1+残差→木1+木2+残差】 と残差について(小さな)木を次々に適用していく(Gradient)モデルです。 残差は連続数…

CARTまとめ(decision tree method)

決定木:Decision treeは2種類 分類木:Classification Tree(目的変数がカテゴリー変数) 回帰木:Regresion Tree (目的変数が連続変数) これら決定木を用いた分析が Classification and Regression Tree: CART分析と呼ばれます。 色々な解析方法がありま…

条件付ロジスティック回帰(conditional logistic regression)

臨床研究で対象が稀な時に よく使用される 症例対照研究、 患者さんを一人登録したら、 マッチング因子(年齢・性別等)を 合せた症例対照を一人登録する というのが通常のやり方です。 100人(D+50/D-50)参加してもらい、データを集めました。 さあ暴露因子…