Machine Learning/Supervised Learning

[Supervised Learning][Ensemble][Bagging] Extra Tree / Extremely Randomized Tree

데이터 세상 2022. 10. 11. 15:58

Extra Tree(엑스트라 트리)  / Extremely Randomized Tree (익스트림 랜덤 트리)

Random Forest

  • bootstrap 샘플과 랜덤한 후보 특성들을 사용해 여러 개의 결정 트리(decision tree)을 앙상블
  • 훈련 데이터에 overfitting을 막아주고 모델의 일반화 성능이 항상 단일 트리보다 높다

Bootstrap sampling in Random Forest

 

 

Random Forest와 매우 비슷하게 동작하는데, 기본적으로 100개의 decision tree를 훈련시킴

전체 특성 중에 일부 특성을 랜덤하게 선택하여 노드를 분할하기 위해 사용

 

Random Forest와 달리 bootstrap 샘플(중복된 훈련 샘플)을 사용하지 않는다

즉, 각 결정 트리를 만들어낼 때 전체 훈련 세트를 사용하는 것으로, 이는 분할할 때 가장 좋은 분할을 찾는 것이 아닌, 무작위(random)로 분할한다는 뜻이다.

데이터 샘플 개수와 특성을 설정하는 것까지 무작위성을 주입한다.

 

결정 트리에서 특성을 무작위로 분할하게 되면 성능은 낮아진다는 단점이 있지만,

많은 트리를 앙상블하기 때문에 overfitting을 막고 검증 세트의 점수를 높이는 효과가 있다

일반적으로 extra tree는 random forest보다 무작위성이 조금 더 크기 때문에, 더 많은 결정 트리를 훈련해야 한다

하지만 무작위로 분할하기 때문에 속도가 빠르다는 장점이 있다

 

출처: https://www.baeldung.com/cs/random-forest-vs-extremely-randomized-trees

 


References

반응형