과적합(Overfitting)이란

카테고리 없음

과적합(Overfitting)이란

문베디드 2020. 11. 27. 08:50

* 과적합이란

- 복잡한 모형일수록, 데이터가 적을 수록 과적합이 일어나기 쉬움

- 데이터에 대한 고차항을 넣었을때 만들어지는 이슈

- 과적합은 data science, AI전반적으로 매우 큰 이슈

- overfitting을 방지하기 위한 기술들만 발전하고 있을뿐, 아예 없앨수 있는 방법은 아직 없음

* 분산(Variance)와 편파성(Bias)의 트레이드오프 (Tradeoff) Dilemma

- 모형 F햇(X) 모집단 전체 데이터를 예측시 발생하는 총 에러를 계산시 reducible/irreducible 에러로 표현됨

- reducible error는 분산과 편파성으로 구성

$E(Y-\hat{Y})^2=E[f(X)+\epsilon - \hat{f}(X)]^2 = Var (\hat{f}(X))+[Bias(\hat{f}(x))]^2 + Var(\epsilon)$

- $E(Y-\hat{Y})$는 오류의 평균이며 오류자승의 평균이 MSE

- $Var(\epsilon)$ 은 irreducible error로써 우리가 조정할 수 없음

- 분산(Variance): 전체 데이터 집합중 서로 다른 학습데이터 이용시 $\hat{f}$이 변하는 정도

-- 복잡한 모형일수록 분산이 높음

- 편파성(Bias): 학습 알고리즘에서 잘못된 가정을 했을 때 발생 오차

--간단한 모형이 편파성 큼

- 모형$\hat{f}(X)$ 복잡도에 따라 편파성과 분산이 상반되게 증감

- 결론: 분산과 편파성이 적절히 작은것을 찾아야함

* Trade off between Variance and Bias dilemma

- overfitting이 무조건 나쁜것은 아니지만 모집단의 데이터를 전부 가질수 없기 때문에 주의해야함

- 데이터 분류를 완벽하게 임의적으로 나눌 수 없기 때문에 힘듦

- High Variance 로 모델을 만든후 Low Bias 를 하기 위한 방향으로 가는것이 좋다고 생각(강사)

현재글과적합(Overfitting)이란

문베디드 인생

Moonbedded Life

C#, 매일성경, 무인기 프로토콜, 부모교육, 육아, 에배소서, 국제결혼, 알고리즘, 내인생영화, gui, 프로그래밍, 아빠, Unmanned Aircraft, 스마트폰끄기, STANAG4586, Unmanned Aerial Vehilcle, 뭐공부하지, 도전, wpf, 에베소서,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

문베디드 인생

과적합(Overfitting)이란

'카테고리 없음'의 다른글

티스토리툴바