Data scientist/Machine Learning

[ML/DL] 파이썬(python)을 이용한 분류(Classification)하기

반응형

머신러닝에서 가장 많이 사용되는 scikits learn을 통해 분류 모델에 대한 학습을 해보겠다.

 

데이터 셋과 모델링/ train과 test를 나누는 라이브러리를 가져온다. 여기서 사용할 모델은 DecisionTreeClassifier이다.

train_tesT_split은 데이터를 쪼개기 위해 사용한다.

 

 

 

이것과 더불어 데이터를 핸들링하고 다루기 위한 pandas와 numpy를 가져온다.

 

 

 

데이터를 봤을 때 이런 형태로 데이터가 들어가 있다.

 

 

 

 

data는 feature(독립변수)가 들어가 있고 targe에는 종속변수가 들어가있다. 

여기서 기본적인 정보들을 확인한다.

 

 

 

이제 feature 데이터 셋을 가져온다.

 

 

 

 

레이블 값도 가져온다.

 

 

 

 

이제 이 값들을 사용하기 위해 데이터프레임으로 만든다.

 

 

 

 

만들었던 데이터를 머신러닝을 통해 돌리기 위해 데이터를 분리한다. 우리는 답을 알고있는 train 데이터에서 X_train, y_train, X_test, y_test를 만든다. 이것들을 통해 모델을 학습시키며 학습시킨 모델의 성능을 파악할 것이다.

 

 

 

 

 

이부분에서 학습에 쓰일 알고리즘을 선책하고 그 알고리즘에 내가 가지고 있는 train 데이터로 모델을 fit하는 작업을 가진다. 모델에 내가 가진 데이터를 통해 학습 한다고 생각하면 된다.

 

 

 

학습시킨 모델을 통해 예측(predict)을 한다. 그 예측하는 값을 X_test로 한다. X_test를 통해 해당 학습이 예측을 하고 이 예측한 값과 실제 값인 y_test를 비교한다. 

 

 

 

이 두개를 비교를 하는데 있어서 accuracy_score 이다. 정확도 분석할 때 사용되는 함수이다. 이런식으로 분류를 하였다.

 

반응형