반응형 통계1 [기초통계] 다중공선성 다중공선성(Multicollinearity) : 목표변수와 2개 이상의 설명변수 간 선형관계를 분석하는 다중 회귀모델에서, 설명변수 간의 강한 상관관계로 인해 회귀모델의 회귀계수에 대한 신뢰성이 떨어지는 현상 회귀모델의 결정계수 \(R^2\) 값이 크더라도, 설명변수의 회귀계수는 유의하지 않을 때, 다중공선성을 의심해 볼 수 있다. 다중공선성 진단을 위해 다음 3가지 방법을 고려해볼 수 있다. * 쉬운 이해를 위해 Kaggle Boston Housing 데이터셋 일부에 INDUS 컬럼과 상관성이 높은 인위적인 컬럼(Artificial_V) 을 추가하여 다중공선성 진단에 활용하였다. 1. 설명변수들 쌍을 지어 산점도를 그려본다. * (ZN, DIS) (INDUS, NOX) (INDUS, DIS) (INDU.. 2021. 4. 28. 이전 1 다음 반응형