카테고리 없음

과적합(Overfitting)이란

문베디드 2020. 11. 27. 08:50

* 과적합이란

  - 복잡한 모형일수록, 데이터가 적을 수록 과적합이 일어나기 쉬움

  - 데이터에 대한 고차항을 넣었을때 만들어지는 이슈

  - 과적합은 data science, AI전반적으로 매우 큰 이슈

  - overfitting을 방지하기 위한 기술들만 발전하고 있을뿐, 아예 없앨수 있는 방법은 아직 없음

 

* 분산(Variance)와 편파성(Bias)의 트레이드오프 (Tradeoff) Dilemma

  - 모형 F햇(X) 모집단 전체 데이터를 예측시 발생하는 총 에러를 계산시 reducible/irreducible 에러로 표현됨

  - reducible error는 분산과 편파성으로 구성

 

$E(Y-\hat{Y})^2=E[f(X)+\epsilon - \hat{f}(X)]^2 = Var (\hat{f}(X))+[Bias(\hat{f}(x))]^2 + Var(\epsilon)$

 

  - $E(Y-\hat{Y})$는 오류의 평균이며 오류자승의 평균이 MSE

  - $Var(\epsilon)$ 은 irreducible error로써 우리가 조정할 수 없음

  - 분산(Variance): 전체 데이터 집합중 서로 다른 학습데이터 이용시 $\hat{f}$이 변하는 정도

    -- 복잡한 모형일수록 분산이 높음

  - 편파성(Bias): 학습 알고리즘에서 잘못된 가정을 했을 때 발생 오차

    --간단한 모형이 편파성 큼

  - 모형$\hat{f}(X)$ 복잡도에 따라 편파성과 분산이 상반되게 증감

  - 결론: 분산과 편파성이 적절히 작은것을 찾아야함

 

* Trade off between Variance and Bias dilemma

  - overfitting이 무조건 나쁜것은 아니지만 모집단의 데이터를 전부 가질수 없기 때문에 주의해야함

  - 데이터 분류를 완벽하게 임의적으로 나눌 수 없기 때문에 힘듦

  - High Variance 로 모델을 만든후 Low Bias 를 하기 위한 방향으로 가는것이 좋다고 생각(강사)