CARTまとめ(decision tree method)
決定木:Decision treeは2種類
- 分類木:Classification Tree(目的変数がカテゴリー変数)
- 回帰木:Regresion Tree (目的変数が連続変数)
これら決定木を用いた分析が
Classification and Regression Tree: CART分析と呼ばれます。
色々な解析方法がありますが、混乱しやすいので特徴等まとめてみました。
ポイントは何をどうアンサンブル*1するかです。
バッギングツリー(bootstrap aggregating = bagging trees):
【データをブートストラップ→木作成】を繰り返してそれをアンサンブル。
ランダムフォレスト(random forest):
baggingに加え【変数をサンプル→木作成】を繰り返してアンサンブル。
outlierに強い。
ブースティング (boosting):
【データにウェイトをかけて木作成→残差でウェイトを更新】を繰り返し、
正確性にウェイトをつけてアンサンブル。
予測性能の悪い変数が多い時でも効率的に良いモデルができる。
CARTの発展:
一般的にはSingle tree → Bagging → Random Forest → Boostingと性能が良い。
*1:色々なClassificationを組み合わせることをアンサンブル(Ensemble)と呼びます