Base/R

[R] R 을 활용한 데이터 탐색(Exploratory Data Analysis)

반응형

# EDA(Exploratory Data Analysis)

수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정입니다.

 

여기서는 7가지 단계로 EDA로 하겠습니다.

# 1.데이터 탐색

# 2.결측치(NA) 처리

# 3.이상치(outlier) 발견 처리

# 4.리코딩(코딩 변경)

# 5.파생변수, 가변수

# 6.시각화

# 7.의사결정

 

※여기서 의사결정 부분은 데이터를 통해 결정하는 과정으로 생략하겠습니다.

 

 

# 1.데이터 탐색 

데이터를 확인하는 작업

 

위와 같은 명령어로 데이터를 확인한다.

 

 

# 2.결측치(NA) 처리

데이터 분석을 하는데 방해가 되는 NA 값을 처리한다.

결측치는 보통 중위수나 평균값 또는 0 / 삭제 이런 방식을 사용한다.

 

예제)

 

 

# 3.이상치(outlier) 발견 처리

결측치를 처리한 후에는 이상치를 발견 후 처리해야된다. 이 데이터들은 분석을 하는데 있어서 악영향을 미친다.

 

1)변수 유형이 이산변수인경우

gender라는 성별의 속성을 확인하고 있다.
gender는 범주형 데이터로서 형태를 봤을때 1,2 가 아닌 이상치인 0과 5가 들어있다 이걸 지워줘야한다. 

 

위에서는 1과2인 값을 추출해서 다시 넣어주는 방식을 통해 이상치를 제거했다.

 

 

2)변수 유형이 연속 변수 인 경우

 

위의 속성을 summary를 했을때 사분위를 확인 했을떄 이상치가 들어있는 것을 볼 수 있다.

 

boxplot으로 시각화해서 봤을떄 이상치가 들어있는 것을 확인 할 수 있다.
boxplot을 변수에 담고 출력 했을 떄 위와 같이 나온다.

 

# outlier를 봤을때 일반적인 값을 status의 범위에 있는 값들을 기준으로 범위를 정한다. 이상치를 제거 한후 다시 boxplot을 하면

status 범위에 있는 데이터만 추출하는 작업을 가진다.

 

위와같이 이상치가 제거된 걸 볼 수있다.

 

 

 

 

# 4.데이터 리코딩 / 파생변수, 가변수

아래에 있는 resident라는 속성값은 연속형으로 나타나 있지만 가독성을 위해서 범주형 데이터로 바꿔주었다.

그리고 이 데이터를 새로운 파생변수 resident_new라는 곳에 넣어주었다.

 

 

#--간단한 예제 1

 

# 6.시각화

이렇게 구한 데이터를 원하는 형태의 차트나 도표로 시각화해서 보여준다.

 

 

#--간단한 예제 2

 

 

반응형