Irisデータで勾配ブースティング

Classification CART

実際にxgboostを使用して、Gradient Boostingをしてみます。今回は、Irisデータを7:3にトレーニングとテストに分けて、XGboostをやってみます。 Petal.Widthがデータ平均以下/以上の予測を行うことにします。とりあえず、R上で下記を走らせてみます。 # Pr…

2017-09-13

ロジスティック回帰の変数選択はちょっと違う

解析 (logistic) Classification 因果推論

多変量回帰において、どれが有効なモデルかわからないときに、なんでもかんでも、とにかく変数を突っ込んでみて、有意だったら残すというアプローチがあります(e.g. ステップダウン、ステップワイズ等）。良い予測モデルを得るのが目的の場合には上記のやり…

2017-08-22

勾配ブースティング(Gradient Boosting )について

python小ネタ Classification

前回は、CARTについてまとめてみましたが、ブースティングの中では勾配ブースティング(gradient boosting)が特によく用いられます。【木１＋残差→木１＋木２＋残差】と残差について（小さな）木を次々に適用していく（Gradient）モデルです。残差は連続数…

2017-08-22

CARTまとめ（decision tree method)

Classification

決定木：Decision treeは2種類分類木：Classification Tree（目的変数がカテゴリー変数）回帰木：Regresion Tree （目的変数が連続変数）これら決定木を用いた分析が Classification and Regression Tree: CART分析と呼ばれます。色々な解析方法がありま…

2017-08-21

条件付ロジスティック回帰（conditional logistic regression)

Classification 解析 (logistic)

臨床研究で対象が稀な時によく使用される症例対照研究、患者さんを一人登録したら、マッチング因子(年齢・性別等）を合せた症例対照を一人登録するというのが通常のやり方です。 100人（D+50/D-50）参加してもらい、データを集めました。さあ暴露因子…

Data Blue

データの海で遊んでます。