Data scientist/Data Science

[Data Science] 데이터 사이언스 개념 - 3.과적합과 모델 선택

반응형

 

 

3.과적합과 모델 선택

 

1.기댓값과 분산

 

기댓값 - 확률변수가 취하는 값을 확률로 가증치를 둔 평균값

확률변수의 기댓값은 다음처럼 정의 된다.

분산- 확률 변수가 취하는 값이 어느정도 퍼져 있는지 나타낸 것

 

평균이나 분산은 주사위의 예처럼 이산변수(서로 분리된 정해진 단위의 값만 갖는 변수)가 아니라, 연속변수로도 정의할수 있다.

 

 

2.배리언스(variance) = 분산

 

분산 - 흩어진 정도를 평가하기 위해 학습 데이터간의 분산을 계산 한 것

 

3.편향-분산 분해

어떤 평가점 X0에 대해 시험데이터 상의 기대 평균제곱오차는 반드시 다음 3가지로 분해 할 수있다.

  1. 편향의 제곱

  2. 배리언스

  3. 오차항의 분산

여기서는 1과 2가 바꼈다.

 

 

이것을 편향 - 분산(바이어스-배리언스)분해라고 부른다.

 

1항은 실제함수와 추정에 사용하는 함수의 차이를 제곱 오차로 수치화 한 평향

유연성이 결여된 함수라면 이 부분은 양수가 된다.

반대로 비모수적이고 유연한 방법인 경우 편향이 0 에 가까워진다.

 

2항은 배리언스다.

배리언스는 유연한 함수가 될수록 높아진다. 

 

3항은 랜덤 노이즈의 분산

이부분은 함수와 관계없이 존재하며 줄일 수 없는 존재이다.

 

 

1번 과녁은 편향(정답에 가까움)은 낮고 분산(모여있다)도 낮다.

2번 과녁은 편향은 낮고 분산은 높다.

3번 과녁은 편향은 높고 분산은 낮다.

4번 과녁은 편향도 높고 분산도 높다.

 

 

참조: https://opentutorials.org/module/3653/22071

 

 

4.편향-분산 트레이드오프

 

편향-분산 트레이드오프란 유연성을 높여 근사오차를 낮추려고 할수록 배리언스가 상승하는 상관관계를 가진다.

그래서 우리는 편향과 분산을 봤을때 어느지점에서 오류가 최소화 되는 지점인 지를 찾아야한다.

그 지점이 바로 편향-분산 트레이드오프다.

 

 

참조:https://bkshin.tistory.com/entry/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-12-%ED%8E%B8%ED%96%A5Bias%EC%99%80-%EB%B6%84%EC%82%B0Variance-Trade-off

 

 

 

 

5.교차검증법(Cross Validation)

 

N개의 데이터를 K분활하고 (k-1)개의 데이터를 학습 데이터로 취급해 모델을 추정한다.

이 과정을 k번 반복해 평균오차의 평균값을 취하면 시험 오류의 근삿값을 계산할 수 있다. 

이 방법을 교차검증법(Cross Validation)이라고 한다.

학습할 때와 시험할 떄 데이터를 생성하는 배후 모델이 같다고 가정할 수 있으면 어떤 상황에서도 사용할 수 있다.

 

 

 

 


본 내용은 그림으로 배우는 DataScience 데이터 과학을 참고한 내용입니다

반응형