CARTまとめ（decision tree method)

決定木：Decision treeは2種類

これら決定木を用いた分析が

Classification and Regression Tree: CART分析と呼ばれます。

色々な解析方法がありますが、混乱しやすいので特徴等まとめてみました。

ポイントは何をどうアンサンブル*1するかです。

バッギングツリー(bootstrap aggregating = bagging trees):

【データをブートストラップ→木作成】を繰り返してそれをアンサンブル。

ランダムフォレスト(random forest)：

baggingに加え【変数をサンプル→木作成】を繰り返してアンサンブル。

outlierに強い。

ブースティング (boosting)：

【データにウェイトをかけて木作成→残差でウェイトを更新】を繰り返し、

正確性にウェイトをつけてアンサンブル。

予測性能の悪い変数が多い時でも効率的に良いモデルができる。

CARTの発展：

一般的にはSingle tree → Bagging → Random Forest → Boostingと性能が良い。

*1:色々なClassificationを組み合わせることをアンサンブル(Ensemble)と呼びます

Data Blue