[Data Science] 데이터 사이언스 개념 - 3.과적합과 모델 선택
3.과적합과 모델 선택 1.기댓값과 분산 기댓값 - 확률변수가 취하는 값을 확률로 가증치를 둔 평균값 확률변수의 기댓값은 다음처럼 정의 된다. 분산- 확률 변수가 취하는 값이 어느정도 퍼져 있는지 나타낸 것 평균이나 분산은 주사위의 예처럼 이산변수(서로 분리된 정해진 단위의 값만 갖는 변수)가 아니라, 연속변수로도 정의할수 있다. 2.배리언스(variance) = 분산 분산 - 흩어진 정도를 평가하기 위해 학습 데이터간의 분산을 계산 한 것 3.편향-분산 분해 어떤 평가점 X0에 대해 시험데이터 상의 기대 평균제곱오차는 반드시 다음 3가지로 분해 할 수있다. 편향의 제곱 배리언스 오차항의 분산 여기서는 1과 2가 바꼈다. 이것을 편향 - 분산(바이어스-배리언스)분해라고 부른다. 1항은 실제함수와 추정에 ..