[ML/DL] 데이터 인코딩 - Label Encoding / One-hot Encoding/ dummies

데이터 인코딩이란? 머신러닝 알고리즘은 문자열 데이터 속성을 입력받지 않으며 모든 데이터는 숫자형으로 표현되어야 한다. 그래서 문자형 카테고리형 속성은 모두 숫자 값으로 변환/인코딩 되어야 한다. 인코딩의 종류 label Encoding - 범주형 변수의 문자열을 수치형으로 변환 One-hot Encoding - 피처값의 유형에 따라 새로운 피처를 추가해 고윳값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시한다. get_dummies() - pandas에서 제공해주는 함수로서 더미의 가변수를 만들어준다. 예제) # label Encoding #[실습] breast_cancer from sklearn.datasets import load_iris, load_breast_cancer from ..