본문 바로가기
반응형

앙상블9

[분석 방법론] Ensemble Learning(9) - CatBoost 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-9: Ensemble Learning - CatBoost 영상을 보고 정리한 내용입니다. 0. GBM 요약 - 순차적으로 모형을 만들어 감, t 번째 부스팅 모형은 t-1까지 누적된 부스팅 모형에, 현재 t 시점에서의 모형 \(h^t\)에 가중치 \(\alpha\)를 곱하여 더하여 도출 - \(h^t\)는 정답값과 추정 값에 대하여 expectation loss를 최소화 하는 함수 h를 의미 - \(h^t\)는 loss functiond의 -gradient, \(-g^t(x,y)\)로 근사 가능 - least squares approxi.. 2023. 1. 1.
[분석 방법론] Ensemble Learning(8) - LightGBM 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-8: Ensemble Learning - LightGBM영상을 보고 정리한 내용입니다. 1. LightGBM Idea - 기존 GBM 알고리즘은 1) 모든 feature에 대해, 2) 모든 객체(data instance)를 스캔하여 information gain을 추정하는 방식으로 가능한 split point들을 탐색 - 앞서 살펴봤던 XGBoost에서는 객체들을 "bucket"으로 구분하여 2) 모든 객체를 스캔 하는 부담을 줄였음 - LightGBM에서는 1) 모든 feature에 대해 스캔하는 부담을 줄이기 위해 "Exclusive.. 2023. 1. 1.
[분석 방법론] Ensemble Learning(6) - Gradient Boosting Machine(GBM) 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-6: Ensemble Learning - Gradient Boosting(GBM) 영상을 보고 정리한 내용입니다. 1. Gradient Boosting 개요 - Gradient Descent : gradients를 이용해서 학습 - Boosting : weak model을 점진적으로 개선 - Regression, Classification, Ranking 문제에 모두 적용 가능 - Original GBM으로부터 XGBoost, LightGBM, CatBoost 파생 2. Gradient Boosting Idea - Regression에서.. 2022. 12. 28.
[분석 방법론] Ensemble Learning(7) - XGBoost 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-7: Ensemble Learning - XGBoost 영상을 보고 정리한 내용입니다. 1. XGBoost 개요 - 어떻게 하면 original Gradient Boosting보다 빠르고, 더 많은 용량을 처리할 수 있을까? - 근사 기법을 적용함에 따라 GBM에 비해 약간의 성능 저하가 있을 수 있지만, 더 빠르게, 더 많은 데이터를 처리할 수 있음, 병렬 처리도 가능함 2. Split Finding Algorithm - Exact greedy algorithm : + 모든 가능한 split point를 탐색하기 때문에, 언제나 opt.. 2022. 12. 28.
[분석 방법론] Ensemble Learning(5) - Adaptive Boosting(AdaBoost) 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-5: Ensemble Learning - Adaptive Boosting(AdaBoost) 영상을 보고 정리한 내용입니다. 1. AdaBoost Idea - random guessing보다 약간 더 잘하는 week model에 대하여, 앞선 모델이 잘 풀지 못했던 어려운 case에 가중치를 부여해서(reweight) 결국에는 strong model을 만들고자 함 - 모델 학습은 순차적으로 진행 - 분류 모델이라면 오분류된 example, 회귀 모델이라면 오차가 큰 example 을 찾아서, 새로운 training set에서 해당 exam.. 2022. 12. 12.
[분석 방법론] Ensemble Learning(4) - Random Forests 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-4: Ensemble Learning - Random Forests 영상을 보고 정리한 내용입니다. 1. Random Forests 개요 - bagging 기법의 특수한 형태 - base learner는 decision tree - ensemble의 diversity를 확보하기 위해 bagging 기법을 사용하고, predictor variables(예측 변수)를 랜덤하게 선택함 * base learner가 decision tree인 단순 bagging과 차이가 있음 2. Random Forests 알고리즘 - 총 B개의 decision.. 2022. 12. 12.
[분석 방법론] Ensemble Learning(3) - Bagging 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-3: Ensemble Learning - Bagging 영상을 보고 정리한 내용입니다. 1. K-fold data split - 데이터 관점의 다양성 확보 - 전체 데이터를 k개의 block으로 구분하고, 1개의 block씩 제외하며 학습 데이터셋을 구성 - 예를 들어, 첫 번째 모델에서는 1~(k-1) block을 학습 데이터셋으로 사용, 두 번째 모델에서는 1~(k-2), k block을 학습 데이터셋으로 사용... k 번째 모델에서는 2~k block을 학습 데이터셋으로 사용함 - \(f_i\)와 \(f_j\)는 (k-2)개의 bl.. 2022. 11. 29.
[분석 방법론] Ensemble Learning(2) - Bias-Variance Decomposition 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-2: Ensemble Learning - Bias-Variance Decomposition 영상을 보고 정리한 내용입니다. 1. 현실 세계의 데이터는 "additive error" model에서 생성된다고 가정 - 정답 매커니즘과 더불어 사람이 어떻게 할 수 없는 노이즈가 포함되어 있는 모델로부터 데이터가 생성됨 - \(F^*(x)\) : 우리가 찾으려고 하지만, 실제로 알 수는 없는 target function - \(\epsilon\) : 노이즈, 독립적이고 동일한 분포로부터 생성 - \(\epsilon\)이 다르면 다른 데이터셋이 .. 2022. 11. 29.
[분석 방법론] Ensemble Learning(1) - Overview 본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 04-1: Ensemble Learning - Overview 영상을 보고 정리한 내용입니다. 1. Ensemble 이란? - 다양한 알고리즘을 조합하여 단일 알고리즘보다 성능을 높이는 기법 2. 단일 알고리즘의 한계 - 우리는 모든 데이터 셋에 대해 가장 우월한/열등한 성능을 가진 superior/inferior algorithm을 가지고 있는가? + 아니다. (No Free Lunch Theorem) - 특정 데이터 셋에 대해 어떠한 알고리즘이 좋은 성능을 가지고 있다면, 해당 알고리즘이 다른 알고리즘보다 우월해서가 아니라, 해당 데이터 .. 2022. 11. 23.
반응형