[ML/DL] python 을 통한 교차검증 ( k -Fold , stratifiedkFold)

교차검증이란? 머신러닝을 돌리기 전에 train test로 나눠 머신을 훈련한다. 하지만 이 훈련 때 학습 데이터에 과도하게 초점을 맞춰 머신이 훈련될 수가 있다. 이 같은 경우에는 훈련시에는 점수가 잘 나오지만 실제 테스트를 할 때는 점수가 잘 나오지 않는다. 이걸 과적합(overfitting)이라고 한다. 우리는 훈련시에 이 같은 과적합을 막아야 한다. 이걸 위해 교차검증 이란 것 을 사용한다. 교차검증이란 훈련 데이터 세트를 바꿔가면 훈련하면서 나온 평균을 정확도로 보는 방법을 뜻한다. 이렇게 훈련 데이터 세트를 교차하면서 검증을 하기에 교차 검증이라고 한다. # K-fold 교차검증 학습세트와 검증 세트를 나눠 반복해서 검증한다. 이걸 k값만큼의 폴드 세트에 k번의 학습과 검증을 한다. 이러한 방..

[R] R에서 교차검증을 위한 데이터 셋 분리방법 3가지

교차검증을 위한 데이터셋 분리에는 3가지 방법이 있습니다. 1. 단순 임의 추출 2.K-Fold 방식 3.Hold - Out방식 이 세 가지를 R을 통해 예제를 보며 진행하겠습니다. 1. 단순 임의 추출 sample을 사용해서 복원/비 복원 추출을 한다. 이 작업을 통해 데이터셋을 만든다. 별로 추천하지 않는 형태이다. 말 그대로 임의 추출이기 때문에 데이터가 한쪽으로 몰릴 수도 있다. 2.k-Fold 교차방식 k개의 fold를 만들어서 진행하는 교차검증이다. 이런 방식으로 모든 데이터를 한 번씩 테스트 셋으로 사용되게 하는 기법이다. 가장 추천하는 방법이다. 이 방법을 통해 여러가지 정확도를 얻게 되고 그걸 평균으로 값을 내거나 또는 각각의 케이스에 따른 경우를 가져갈 때도 있다. 패키지를 설치한다. ..