[Dacon] 신용카드 사용자 연체 예측 AI 경진대회 1위 코드 분석

신용카드 사용자 연체 예측 AI 경진대회 주제 신용카드 사용자 데이터를 보고 사용자의 대금 연체 정도를 예측하는 알고리즘 개발하는 대회였다. 배경 신용카드사는 신용카드 신청자가 제출한 개인정보와 데이터를 활용해 신용 점수를 산정한다. 신용카드사는 이 신용 점수를 활용해 신청자의 향후 채무 불이행과 신용카드 대급 연체 가능성을 예측한다, 평가 - Logloss 소스 [Private 1위 0.6581] | 소회의실 | Catboost 이 소스에서는 여러가지 모델을 사용했지만 catboost가 성능이 가장 잘나왔다고 했다. catboost 같은 경우에는 범주형 변수 처리에 더 효과적인 모델링이라고 한다. 이 사람이 생각한 핵심 포인트는 아래와 같다. family_size > 7 제거 (이상치 제거) 중복데이터..

[Dacon] 2020 D CUP Google Analytics 데이터 1위 코드 분석

2020 D CUP Google Analytics 데이터 이 대회는 Dacon에서 진행한 대회로서 과거의 데이콘 데이터를 활용한 미래의 사용자 행동 패턴을 예측 하는 대회였다. 데이터 자체는 ga 기반의 데이터이여서 깔끔했다. 데이터 데이터 형태는 이런 식이였고 안에 데이터 형태는 이와 같았다. 평가 심사 기준: Weighted RMSE 사용자 수, 세션 수, 신규 방문자 수, 페이지 뷰 수 4가지 항목을 예측하는 대회입니다. 각 변수의 크기가 다르기 때문에 가중치를 부여한 RMSE로 모델의 성능을 평가합니다. 소스 Private 1위, Private 점수 1.60023점, Linear Regression (소스는 1위했던 분의 소스 였습니다.) import os os.chdir('/content/dri..