Base/R

[R]R을 활용한 상관분석과 회귀분석 - 2

반응형

선형회귀분석

예측 모델에서 사용하는 알고리즘으로서 인과 관계를 분석하는 방법이다.

 

선형 회귀 분석 세가지 조건

1. x(독립변수) 가 변하는 것에 따라서 y(종속변수)도 변한다.

2.시각적으로 선행 되어야 한다.

3.외생변수를 통제한다 (다른 요인을 통제하고 인과관계를 분석한다)

※독립변수 - 설명 변수로서 영향을 주는 변수이다.

※종속변수 - 목표변수로서 영향을 받는 변수이다.

 

선형회귀 분석 종류

단순선형 회귀 분석 - 독립변수가 1가지 인 경우

다중선형회귀 분석 - 독립변수가 2가지 이상인 경우

 

lm()

- lm함수는 linear model의 약자로 선형 모델을 맞추는 데 사용된다. 회귀 분석, 분산의 단일 계층 분석 및 공분산 분석을 수행하는 데 사용할 수 있다.

lm(종속변수 ~ 독립변수 ,data)

lm(종속변수 ~ 독립변수 ,data)

fit_model이라는 예측모델을 만든다. 키를 이용하여 몸무게를 예측하는 모델이다.

예측모델을 통해 abline을 그린다.

fitted를 통해서 예측값을 볼 수 있다. 여기서 fit_model에서는 height값에 따른 weight를 구한다.

 

#모델 예측치 / 오차값

residuals(model) - 예측값과 실제 값 사이의 차이는 잔차를 나타낸다.

 

이런식으로 오류치를 찾는다.

 

아래는 모델을 summary 했을때 나오는 결과 값으로 해석하자면

R-squared 는 결정계수로서 99프로 신뢰할 수있다.

여기서 multiple 과 adJusted 차이가 크면 다시만들어야 된다. 잘못만든 것이다.

 

 

cor.test를 통해 

상관분석으로 지금 귀무가설이 맞는지 확인하고

 

이렇게 만들어 놓은 모델에 값을 넣어 예측함수를 통해서 height가 72일때 예측되는 파운드를 나타낸다.

 

#예측모델 평가 지표

시계열 분석을 위해 forecast를 install 한다.

여기서는 다항분석을 해보자.

forcast를 써서 정확도 평가를 할 수 있다.

 

#ME(Mean of Errors)  - 평균
#MSE(Mean Squared Error) - 제곱의 평균
#RMSE(Root Mean of Squared Error) -  제곱근 이게작으면 작을수록 신뢰도가 높은 모델이다.
#MAE(Mean of Absolute Error) - 오차의 개수를 절대값으로 나눈것
#MPE(Mean of Percentage Error)


회귀분석을 위한 작업 순서

1.결측치 확인

 

2.상관분석

 

3.이상치 확인

 

 

 

 

4.회귀 적합 모델 만들기

 

 

 

5.분석결과 시각화

 

 

6. 정확도 계산

 

 

 


 

성능 테스트 

회귀분석 모델을 만들고

 

그래프를 그려본다.

 

 


 

 

 

 

 

 

 

 

 

 

 

반응형