Base/R

[R] R을 통해 시계열 그래프 만들기 (자료 분석을 위한 시각화와 실습 예제)

반응형

#시계열 -  시계열(time series) 데이터는 관측치가 시간적 순서를 가진 데이터

여기서는 시간의 흐름에 따라 값이 변화하는 것을 그래프로 만드는 것을 목적으로 한다.

일단 첫 번째 iris는 시계열 데이터는 아닌 것 같다. 행으로 나눠서 행이 변화하는 것에 따라서 그래프를 그린다. 

 

rownames로 행의 값을 추출해낸다. 처음에는 char데이터여서 이것을 타입 변환을 해줘야 한다.

 

타입변환 한 값을 변수에 저장하고 이 변수에 cbind로 기존에 있던 iris로 합쳐준다.

여기서 colsColor 하는 작업은 컬러 값을 주기 위해서 뽑아왔다. 이 부분은 생략해도 된다. 컬러 값을 뽑아오고 그 값들의 속성명을 irisDF의 속성 값으로 한다. 여기서 iris의 속성 값들은 2:5로 우리가 필요한 variable 값이다. 우리는 이 값들을 행의 값에 변화에 따라서 4가지 그래프를 그릴 것이다.

 

여기서 melt를 사용한다. melt는 가로축의 데이터를 세로축으로 만드는 함수이다. 여기서 가로축으로 된 데이터 Sepal.Length, Sepal.Width, Petal.length, Petal.Width를 세로축으로 바꿔주는 작업을 한다. 그때 기준을 seq(행 번호)와 Species을 기준으로 잡는다. 우리가 그릴 그래프는 Species(종)에 따라서 다양한 variable이 바뀌는 것을 보기 위함이기 때문이다.

 

데이터를 생성한 후 ggplot에 그래프를 그린다. 

seq가 변화함에 따라 종의 변화를 보는 것 이기 때문에 x 축을 seq로 잡고 각각의 variable에 따라 색을 주는 것으로 구분을 하기 때문에 col 값을 variable로 만든다. 그다음 꺾은선그래프를 만들기 위해 geom_line을 사용했다.

 


#문자 변수 날짜 변수로 변환(시계열을 위한 준비 작업)

날짜 데이터가 char 형태로 되어 있는 경우가 있다. 이경우에는 날짜 데이터 타입으로 바꿔줘야 시계열 작업이 가능함으로 이런 식으로 바꿔준다.

 


 

# 시계열 예제

 

데이터를 뽑아온 후에 as.POSIXcs 를 통해서 날짜 데이터 타입으로 바꾼다.

 

 

여기서 melt를 통해서 data와 볼륨에 따른 variable 값을 가지게 만든다. 우리가 찾을 것은 시간의 변화에 따른 variable(open,high,low,close)를 구하는 것이다.

 

그 결과는 이렇게 나온다.

 

 

 

 

# 캐글 실습 예제

 

 

 

 

 

 

 

 

 

트레인 클래스별

목적지별 가격

 

반응형