본문 바로가기
머신러닝

[분석 방법론] Ensemble Learning(1) - Overview

by 하응 2022. 11. 23.

본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의   04-1: Ensemble Learning - Overview 영상을 보고 정리한 내용입니다.


1. Ensemble 이란? 

-  다양한 알고리즘을 조합하여 단일 알고리즘보다 성능을 높이는 기법

 

2. 단일 알고리즘의 한계 

-  우리는 모든 데이터 셋에 대해 가장 우월한/열등한 성능을 가진 superior/inferior algorithm을 가지고 있는가? 

    + 아니다. (No Free Lunch Theorem)

- 특정 데이터 셋에 대해 어떠한 알고리즘이 좋은 성능을 가지고 있다면, 해당 알고리즘이 다른 알고리즘보다 우월해서가 아니라, 해당 데이터 셋에 적합한 알고리즘이기 때문
- 문제의 목적, 데이터 형태 등을 고려하여 최적의 알고리즘을 선택해야 함 

단일 알고리즘에 대한 성능 그래프 (x축 데이터셋, y축 error rate)

 

3. Ensemble 기법의 효과 

- 알고리즘을 조합하면, 단일 알고리즘 중 best 알고리즘의 결과에 맞먹음 

ensemble 기법을 사용한 알고리즘 조합에 대한 성능 그래프 (x축 데이터셋, y축 error rate)

 

4. Empirical Evidence 

- M Fernández-Delgado, E Cernadas, S Barro (2014) Do we need Hundreds of Classifiers to Solve Real World Classification Problems?. Journal of Machine Learning Research 15 3133-3181
   + 실험적으로 121개의 데이터 셋에 대한 179개 알고리즘의 성능을 평가 (부스팅 계열 알고리즘은 포함되지 않았으며, 구현 도구에 따라 모두 다른 알고리즘으로 취급함) 
   + 각 데이터 셋에 대한 모든 알고리즘의 정확도 순위를 부여
   + 결론적으로 정확도 순위(rank)가 1인 알고리즘은 존재하지 않음 (No Free Lunch Theorem)
   + 그러나, Random Forests와 SVM 계열이 상대적으로 분류 성능이 높은 것을 확인 

- The 10 main takeaways from MLConf SF(2016) 

   + "Ensembles almost always work better than the single best model"

 


 

참고 자료 

- 고려대학교 산업경영공학부 강필성 교수님 강의 

 

 

 

반응형

댓글