본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-1: Ensemble Learning - Overview 영상을 보고 정리한 내용입니다.
1. Ensemble 이란?
- 다양한 알고리즘을 조합하여 단일 알고리즘보다 성능을 높이는 기법
2. 단일 알고리즘의 한계
- 우리는 모든 데이터 셋에 대해 가장 우월한/열등한 성능을 가진 superior/inferior algorithm을 가지고 있는가?
+ 아니다. (No Free Lunch Theorem)
- 특정 데이터 셋에 대해 어떠한 알고리즘이 좋은 성능을 가지고 있다면, 해당 알고리즘이 다른 알고리즘보다 우월해서가 아니라, 해당 데이터 셋에 적합한 알고리즘이기 때문
- 문제의 목적, 데이터 형태 등을 고려하여 최적의 알고리즘을 선택해야 함
3. Ensemble 기법의 효과
- 알고리즘을 조합하면, 단일 알고리즘 중 best 알고리즘의 결과에 맞먹음
4. Empirical Evidence
- M Fernández-Delgado, E Cernadas, S Barro (2014) Do we need Hundreds of Classifiers to Solve Real World Classification Problems?. Journal of Machine Learning Research 15 3133-3181
+ 실험적으로 121개의 데이터 셋에 대한 179개 알고리즘의 성능을 평가 (부스팅 계열 알고리즘은 포함되지 않았으며, 구현 도구에 따라 모두 다른 알고리즘으로 취급함)
+ 각 데이터 셋에 대한 모든 알고리즘의 정확도 순위를 부여
+ 결론적으로 정확도 순위(rank)가 1인 알고리즘은 존재하지 않음 (No Free Lunch Theorem)
+ 그러나, Random Forests와 SVM 계열이 상대적으로 분류 성능이 높은 것을 확인
- The 10 main takeaways from MLConf SF(2016)
+ "Ensembles almost always work better than the single best model"
참고 자료
'머신러닝' 카테고리의 다른 글
[분석 방법론] Ensemble Learning(3) - Bagging (0) | 2022.11.29 |
---|---|
[분석 방법론] Ensemble Learning(2) - Bias-Variance Decomposition (0) | 2022.11.29 |
[분석 방법론] Anomaly Detection - Isolation Forest (0) | 2022.11.23 |
[머신러닝] GMM(Gaussian Mixture Model) 군집화 (3) | 2021.08.19 |
[머신러닝] 클러스터링 평가지표 - 실루엣 계수(2) (0) | 2021.07.21 |
댓글