[Dacon] 심리 성향 예측 AI 경진대회 - Auto ML 하는 방법

심리 성향 예측 AI 경진대회 이 대회는 Dacon에서 진행한 대회로서 심리학 테스트 분석 알고리즘 개발 하는 대회였다. (https://dacon.io/competitions/official/235647/overview/description) 이 대회에서 어떤 착한분이 간단하게 AutoML를 하는 소스에 대해서 공유를 해줬는데 AutoML를 경험해보는데 있어서 좋은 경험이 될 것 같아서 가져왔다. 데이터 평가 심사 기준: AUC 소스 경로 설정 (Define your path) path = 'data/' import os os.listdir(path) 데이터 불러오기 (Read Data) import pandas as pd train = pd.read_csv(path + 'train.csv') test..

[ML/DL] 베이지안 최적화(Bayesizan Optimization)란?

베이지안 최적화란? "Bayesian Optimization의 핵심은 사전 정보를 최적 값 탐색에 반영하는 것이다!" 여기서 제일 중요한것 두 가지가 나온다. 첫 번째는 사전 정보이고 두 번째는 최적 값 탐색이다. 이제 이말을 좀 더 풀어써보겠다. 베이지안 최적화에서는 Surrogate model과 Acquisition function이 두가지를 통해 결과를 내고 다시 학습하는 것처럼 계속 돌아간다. (내 생각에는 부스팅 학습 같은 방식 같다.) Surrogate model이란 것은 지금까지의 데이터를 통해 내가 예상하는 값의 모델링이 이렇다 라고 만들게 된다. 수학적으로는 목적함수에 대해 확률적으로 추정한 결과라고 하는 것 같다. 이제 이렇게 만들어진 모델을 기반으로 다음 탐색 지점을 결정하게 된다. ..

[ML/DL] 회귀(Regression)의 정의와 구현

회귀(Regression) 1-1.회귀(Regression)란? 회귀는 독립변수와 한개의 종속 변수간의 상관관계를 모델링 하는 기법으로 보통 머신러닝의 회귀 예측의 핵심은 주어진 피처(속성/독립변수)와 결정 값(종속변수) 데이터 기반에서 학습을 통해 최적의 회귀계수를 찾아내는 것! 간단하게 A(독립변수)와 B(종속변수) 둘의 인과관계나 둘의 연관성? 등을 통해 A라는 속성만 있을 때 B의 값을 예측하는 것이다. 1-2.회귀의 종류 회귀의 종류는 독립변수의 개수에 따라 달라진다. 단순선형회귀 - 독립변수 1개 다중선형회귀 - 독립변수 2개이상 # 분류와 회귀의 가장 큰 차이는 값의 차이다. 분류는 카테고리값(이산값) 이고 회귀의 결과값은 숫자값(연속값)으로 되어있다. 1-3.구현 # 그래프를 그리는데 필요..

[ML/DL] 군집화의 정의와 종류 및 구현

1.군집화 1-1.군집화란? 데이터들의 특성을 고려해 데이터 집단을 정의하고 데이터 집단의 대표 할 수 있는 대표점을 찾는 것 비지도 학습의 종류중 하나로서 답을 알지 못하는 상태에서 데이터들 간의 분할을 진행하는 방법이다. 그래서 결론은 답없는 애들을 비슷한 애들끼리 끼리끼리 모아 놓는 느낌이다 여기서는 지금 3가지로 분류를 하였는데 저 색깔별로 중심에 점을 두고 거리를 계산해서 가까운 곳에 있는 애들을 같은 색으로 칠한다. 그런느낌이다. 군집화를 어떻게 할 것인가에 대한 기준은 거리다! 거리 척도 유형에는 두가지가 있다. 1-2.거리척도유형 1.유클리디안 거리(Euclidean Distance) 2.맨하탄 거리(Manhattan distance) 1-3.군집분석의 유형 1.분리형(비계층적) 군집화(P..

[ML/DL] XGboost의 정의와 구현 및 hyper parameter 설정

1.XGboost 1-1.xgboost란? 앙상블 모델의 한 종류인 boosting의 종류이다. 부스팅은 약한 분류기를 세트로 묶어서 정확도를 예측하는 기법이다. 또한 Xgboosting 은 gradient boosting 알고리즘의 단점을 보완해주기 위해 나왔다. ※gradient boosting 의 단점 - 느리다 , 과적합 이슈 1-2.xgboost의 특징 gbm 보다 빠르다 자동 가자치기를 통해 과적합이 잘 일어나지 않는다. 다른 알고리즘과 연계 활용성이 좋다. 다양한 커스텀 최적화 옵션 제공한다. 유연성이 좋다. (ex : 조기 중단 기능) 1-3.xgboost 구현 # 데이터 생성 및 train test 셋 나누기 from sklearn.datasets import load_breast_can..