반응형
# EDA(Exploratory Data Analysis)
수집한 데이터가 들어왔을 때, 이를 다양한 각도에서 관찰하고 이해하는 과정입니다. 한마디로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정입니다.
여기서는 7가지 단계로 EDA로 하겠습니다.
# 1.데이터 탐색
# 2.결측치(NA) 처리
# 3.이상치(outlier) 발견 처리
# 4.리코딩(코딩 변경)
# 5.파생변수, 가변수
# 6.시각화
# 7.의사결정
※여기서 의사결정 부분은 데이터를 통해 결정하는 과정으로 생략하겠습니다.
# 1.데이터 탐색
데이터를 확인하는 작업
# 2.결측치(NA) 처리
데이터 분석을 하는데 방해가 되는 NA 값을 처리한다.
결측치는 보통 중위수나 평균값 또는 0 / 삭제 이런 방식을 사용한다.
예제)
# 3.이상치(outlier) 발견 처리
결측치를 처리한 후에는 이상치를 발견 후 처리해야된다. 이 데이터들은 분석을 하는데 있어서 악영향을 미친다.
1)변수 유형이 이산변수인경우
2)변수 유형이 연속 변수 인 경우
# outlier를 봤을때 일반적인 값을 status의 범위에 있는 값들을 기준으로 범위를 정한다. 이상치를 제거 한후 다시 boxplot을 하면
위와같이 이상치가 제거된 걸 볼 수있다.
# 4.데이터 리코딩 / 파생변수, 가변수
아래에 있는 resident라는 속성값은 연속형으로 나타나 있지만 가독성을 위해서 범주형 데이터로 바꿔주었다.
그리고 이 데이터를 새로운 파생변수 resident_new라는 곳에 넣어주었다.
#--간단한 예제 1
# 6.시각화
이렇게 구한 데이터를 원하는 형태의 차트나 도표로 시각화해서 보여준다.
#--간단한 예제 2
반응형
'Base > R' 카테고리의 다른 글
[R] 같은 형태의 ggplot 과 barplot 만들기 (차이 비교) (0) | 2020.07.30 |
---|---|
[R] ggplot2 패키지 설치 에러시 해결 방법 (0) | 2020.07.30 |
[R] R ggplot 사용법 (데이터 시각화 도구) (0) | 2020.07.28 |
[R] R 에서 사용되는 기본적인 시각화 그래프-2 (0) | 2020.07.28 |
[R] R 에서 사용되는 기본적인 시각화 그래프 (0) | 2020.07.28 |