#시계열 - 시계열(time series) 데이터는 관측치가 시간적 순서를 가진 데이터
여기서는 시간의 흐름에 따라 값이 변화하는 것을 그래프로 만드는 것을 목적으로 한다.
일단 첫 번째 iris는 시계열 데이터는 아닌 것 같다. 행으로 나눠서 행이 변화하는 것에 따라서 그래프를 그린다.
rownames로 행의 값을 추출해낸다. 처음에는 char데이터여서 이것을 타입 변환을 해줘야 한다.
타입변환 한 값을 변수에 저장하고 이 변수에 cbind로 기존에 있던 iris로 합쳐준다.
여기서 colsColor 하는 작업은 컬러 값을 주기 위해서 뽑아왔다. 이 부분은 생략해도 된다. 컬러 값을 뽑아오고 그 값들의 속성명을 irisDF의 속성 값으로 한다. 여기서 iris의 속성 값들은 2:5로 우리가 필요한 variable 값이다. 우리는 이 값들을 행의 값에 변화에 따라서 4가지 그래프를 그릴 것이다.
여기서 melt를 사용한다. melt는 가로축의 데이터를 세로축으로 만드는 함수이다. 여기서 가로축으로 된 데이터 Sepal.Length, Sepal.Width, Petal.length, Petal.Width를 세로축으로 바꿔주는 작업을 한다. 그때 기준을 seq(행 번호)와 Species을 기준으로 잡는다. 우리가 그릴 그래프는 Species(종)에 따라서 다양한 variable이 바뀌는 것을 보기 위함이기 때문이다.
데이터를 생성한 후 ggplot에 그래프를 그린다.
seq가 변화함에 따라 종의 변화를 보는 것 이기 때문에 x 축을 seq로 잡고 각각의 variable에 따라 색을 주는 것으로 구분을 하기 때문에 col 값을 variable로 만든다. 그다음 꺾은선그래프를 만들기 위해 geom_line을 사용했다.
#문자 변수 날짜 변수로 변환(시계열을 위한 준비 작업)
날짜 데이터가 char 형태로 되어 있는 경우가 있다. 이경우에는 날짜 데이터 타입으로 바꿔줘야 시계열 작업이 가능함으로 이런 식으로 바꿔준다.
# 시계열 예제
데이터를 뽑아온 후에 as.POSIXcs 를 통해서 날짜 데이터 타입으로 바꾼다.
여기서 melt를 통해서 data와 볼륨에 따른 variable 값을 가지게 만든다. 우리가 찾을 것은 시간의 변화에 따른 variable(open,high,low,close)를 구하는 것이다.
그 결과는 이렇게 나온다.
# 캐글 실습 예제
트레인 클래스별
목적지별 가격
'Base > R' 카테고리의 다른 글
[R] R에서 Database 사용하기 / DB 기본적인 구문 사용하기 (0) | 2020.08.03 |
---|---|
[R] 예제를 통한 데이터 전처리 작업 (0) | 2020.08.03 |
[R] 같은 형태의 ggplot 과 barplot 만들기 (차이 비교) (0) | 2020.07.30 |
[R] ggplot2 패키지 설치 에러시 해결 방법 (0) | 2020.07.30 |
[R] R 을 활용한 데이터 탐색(Exploratory Data Analysis) (0) | 2020.07.30 |