Data Blue

データの海で遊んでます。

CARTまとめ(decision tree method)

決定木:Decision treeは2種類

  • 分類木:Classification Tree(目的変数がカテゴリー変数)
  • 回帰木:Regresion Tree (目的変数が連続変数)

 

これら決定木を用いた分析が

Classification and Regression Tree: CART分析と呼ばれます。

色々な解析方法がありますが、混乱しやすいので特徴等まとめてみました。

 

ポイントは何をどうアンサンブル*1するかです。

 

バッギングツリー(bootstrap aggregating = bagging trees):

【データをブートストラップ→木作成】を繰り返してそれをアンサンブル。

 

ランダムフォレスト(random forest):

baggingに加え【変数をサンプル→木作成】を繰り返してアンサンブル。

outlierに強い。

 

ブースティング (boosting):

【データにウェイトをかけて木作成→残差でウェイトを更新】を繰り返し、

正確性にウェイトをつけてアンサンブル。

予測性能の悪い変数が多い時でも効率的に良いモデルができる。

 

CARTの発展:

一般的にはSingle tree → Bagging → Random Forest → Boostingと性能が良い。

*1:色々なClassificationを組み合わせることをアンサンブル(Ensemble)と呼びます