[kaggle] house prise 를 통한 회귀분석(regression analysis) - 1 (데이터 탐색적 분석)

※이것은 개인적으로 공부를 해가면서 하는 부분이라 제가 하는 것이 정답은 아닙니다. 참고 정도로 부탁드립니다. 회귀 분석에 있어서 가장 기본적인 문제인 houes price를 해보았다. 데이터는 kaggle에서 받아왔다. www.kaggle.com/c/house-prices-advanced-regression-techniques House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 소스를 돌리는데 있어서는 구글 colab을 사용하였다. 데이터 탐색에는 아래와 같은 과정을 거친다. 1. 데이터를 임포트 하여 ..

[R] R 을 활용한 데이터 탐색(Exploratory Data Analysis)

# EDA(Exploratory Data Analysis) 수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정입니다. 여기서는 7가지 단계로 EDA로 하겠습니다. # 1.데이터 탐색 # 2.결측치(NA) 처리 # 3.이상치(outlier) 발견 처리 # 4.리코딩(코딩 변경) # 5.파생변수, 가변수 # 6.시각화 # 7.의사결정 ※여기서 의사결정 부분은 데이터를 통해 결정하는 과정으로 생략하겠습니다. # 1.데이터 탐색 데이터를 확인하는 작업 # 2.결측치(NA) 처리 데이터 분석을 하는데 방해가 되는 NA 값을 처리한다. 결측치는 보통 중위수나 평균값 또는 0 / 삭제 이런 방식을..