본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의 중 05-1: Semi supervised Learning - Overview 영상을 보고 정리한 내용입니다.
1. 머신러닝 분류
- Supervised Learning (지도학습) : 모든 데이터 객체에 설명변수(x)-종속변수(y) 쌍이 존재함, 설명변수로 종속변수를 잘 설명하는 모델을 만들고자 함
- Unsupervised Learning (비지도학습) : 데이터 객체에 종속변수(y)가 존재하지 않음, x만 가지고 데이터의 특징을 설명하는 모델을 만들고자 함, 데이터의 밀도를 추정할 수도 있고, 군집을 찾아낼 수도 있음
- Semi-supervised Learning (준지도학습) : Supervised Learning처럼 설명변수로 종속변수를 잘 설명하는 모델을 만들고 싶지만, 일부 데이터에 설명변수(x)만 있고, 종속변수(y) 값이 존재하지 않는 경우,이러한 unlabeled된 데이터를 labeled된 데이터와 함께 학습에 사용해서 설명력 좋은 모델을 만들고자 함
2. Semi-supervised learning 배경
- labeling에 드는 시간과 비용이 크기 때문에, labeled된 데이터보다 unlabeled된 데이터를 확보하기 쉬움
- unlabeled data를 학습에 사용하는 경우, 데이터의 분포를 더 자세히 고려할 수 있기 때문에, labeled data만 학습한 모델보다 더 좋은 성능의 모델을 만들어낼 가능성이 있음
- labeled data 개수가 동일하다는 가정 하에서, labeled data만 사용하는 경우보다, unlabeled data를 학습에 함께 활용하는 경우, 모델 성능이 향상되는 경향이 있음
3. Semi-supervised Learning 전제 조건
- unlabeled data가 학습에 유용하게 사용되기 위해서는, class(y)에 따라 unlabeled data가 어느 정도 분포를 띄고 있어야 함
- unlabeled data가 완벽하게 uniformly distributed data인 경우, 학습에 도움을 줄 수 없음
4. Notations
- 보통 labeled된 data 개수보다 unlabeled된 data 개수가 훨씬 많음
- test data는 label이 없는 데이터를 사용함
5. Semi-supervised Learning과 Transductive Learning의 차이
- Semi-supervised Learning은 새로운 x가 들어왔을 때의 target y를 알고자 함
- Transductive Learning은 현재 갖고 있는 unlabeled data의 target y를 알고자 함
참고 자료
- Bioinformatics, Volume 24, Issue 6, 15 March 2008, Pages 783–790, https://doi.org/10.1093/bioinformatics/btn028
'머신러닝' 카테고리의 다른 글
[분석 방법론] Semi supervised Learning(2) - Self-Training & Co-Training (0) | 2023.01.12 |
---|---|
[분석 방법론] Ensemble Learning(9) - CatBoost (0) | 2023.01.01 |
[분석 방법론] Ensemble Learning(8) - LightGBM (0) | 2023.01.01 |
[분석 방법론] Ensemble Learning(6) - Gradient Boosting Machine(GBM) (0) | 2022.12.28 |
[분석 방법론] Ensemble Learning(7) - XGBoost (0) | 2022.12.28 |
댓글