본문 바로가기
머신러닝

[분석 방법론] Semi supervised Learning(1) - Overview

by 하응 2023. 1. 6.

본 포스팅은 고려대학교 산업경영공학부 강필성 교수님의 [Korea University] Business Analytics (Graduate, IME654) 강의   05-1: Semi supervised Learning - Overview 영상을 보고 정리한 내용입니다.


1. 머신러닝 분류

- Supervised Learning (지도학습) : 모든 데이터 객체에 설명변수(x)-종속변수(y) 쌍이 존재함, 설명변수로 종속변수를 잘 설명하는 모델을 만들고자 함 

- Unsupervised Learning (비지도학습) : 데이터 객체에 종속변수(y)가 존재하지 않음, x만 가지고 데이터의 특징을 설명하는 모델을 만들고자 함, 데이터의 밀도를 추정할 수도 있고, 군집을 찾아낼 수도 있음

- Semi-supervised Learning (준지도학습) : Supervised Learning처럼 설명변수로 종속변수를 잘 설명하는 모델을 만들고 싶지만, 일부 데이터에 설명변수(x)만 있고, 종속변수(y) 값이 존재하지 않는 경우,이러한 unlabeled된 데이터를 labeled된 데이터와 함께 학습에 사용해서 설명력 좋은 모델을 만들고자 함 

 

2. Semi-supervised learning 배경 

- labeling에 드는 시간과 비용이 크기 때문에, labeled된 데이터보다 unlabeled된 데이터를 확보하기 쉬움

- unlabeled data를 학습에 사용하는 경우, 데이터의 분포를 더 자세히 고려할 수 있기 때문에, labeled data만 학습한 모델보다 더 좋은 성능의 모델을 만들어낼 가능성이 있음 

- labeled data 개수가 동일하다는 가정 하에서, labeled data만 사용하는 경우보다, unlabeled data를 학습에 함께 활용하는 경우, 모델 성능이 향상되는 경향이 있음 

 

unlabeled data를 학습에 사용하는 경우 분류경계면 생성 예시

 

3. Semi-supervised Learning 전제 조건 

- unlabeled data가 학습에 유용하게 사용되기 위해서는, class(y)에 따라 unlabeled data가 어느 정도 분포를 띄고 있어야 함 

- unlabeled data가 완벽하게 uniformly distributed data인 경우, 학습에 도움을 줄 수 없음 

오른쪽처럼, targe에 대해 어느 정도 분포를 가지고 있어야, unlabeled data가 학습에 유용하게 사용될 수 있음

 

4. Notations 

- 보통 labeled된 data 개수보다 unlabeled된 data 개수가 훨씬 많음

- test data는 label이 없는 데이터를 사용함 

 

5. Semi-supervised Learning과 Transductive Learning의 차이 

- Semi-supervised Learning은 새로운 x가 들어왔을 때의 target y를 알고자 함

- Transductive Learning은 현재 갖고 있는 unlabeled data의 target y를 알고자 함  

 


 

 

참고 자료 

- 고려대학교 산업경영공학부 강필성 교수님 강의  

- Bioinformatics, Volume 24, Issue 6, 15 March 2008, Pages 783–790, https://doi.org/10.1093/bioinformatics/btn028

반응형

댓글