선형회귀분석
예측 모델에서 사용하는 알고리즘으로서 인과 관계를 분석하는 방법이다.
선형 회귀 분석 세가지 조건
1. x(독립변수) 가 변하는 것에 따라서 y(종속변수)도 변한다.
2.시각적으로 선행 되어야 한다.
3.외생변수를 통제한다 (다른 요인을 통제하고 인과관계를 분석한다)
※독립변수 - 설명 변수로서 영향을 주는 변수이다.
※종속변수 - 목표변수로서 영향을 받는 변수이다.
선형회귀 분석 종류
단순선형 회귀 분석 - 독립변수가 1가지 인 경우
다중선형회귀 분석 - 독립변수가 2가지 이상인 경우
lm()
- lm함수는 linear model의 약자로 선형 모델을 맞추는 데 사용된다. 회귀 분석, 분산의 단일 계층 분석 및 공분산 분석을 수행하는 데 사용할 수 있다.
lm(종속변수 ~ 독립변수 ,data)
lm(종속변수 ~ 독립변수 ,data)
fit_model이라는 예측모델을 만든다. 키를 이용하여 몸무게를 예측하는 모델이다.
예측모델을 통해 abline을 그린다.
fitted를 통해서 예측값을 볼 수 있다. 여기서 fit_model에서는 height값에 따른 weight를 구한다.
#모델 예측치 / 오차값
residuals(model) - 예측값과 실제 값 사이의 차이는 잔차를 나타낸다.
이런식으로 오류치를 찾는다.
아래는 모델을 summary 했을때 나오는 결과 값으로 해석하자면
R-squared 는 결정계수로서 99프로 신뢰할 수있다.
여기서 multiple 과 adJusted 차이가 크면 다시만들어야 된다. 잘못만든 것이다.
cor.test를 통해
상관분석으로 지금 귀무가설이 맞는지 확인하고
이렇게 만들어 놓은 모델에 값을 넣어 예측함수를 통해서 height가 72일때 예측되는 파운드를 나타낸다.
#예측모델 평가 지표
시계열 분석을 위해 forecast를 install 한다.
여기서는 다항분석을 해보자.
forcast를 써서 정확도 평가를 할 수 있다.
#ME(Mean of Errors) - 평균
#MSE(Mean Squared Error) - 제곱의 평균
#RMSE(Root Mean of Squared Error) - 제곱근 이게작으면 작을수록 신뢰도가 높은 모델이다.
#MAE(Mean of Absolute Error) - 오차의 개수를 절대값으로 나눈것
#MPE(Mean of Percentage Error)
회귀분석을 위한 작업 순서
1.결측치 확인
2.상관분석
3.이상치 확인
4.회귀 적합 모델 만들기
5.분석결과 시각화
6. 정확도 계산
성능 테스트
회귀분석 모델을 만들고
그래프를 그려본다.
'Base > R' 카테고리의 다른 글
[R] R을 활용한 크롤링 - 로또 1등 당첨 배출점 크롤링 하기 (0) | 2020.08.07 |
---|---|
[R] R에서 교차검증을 위한 데이터 셋 분리방법 3가지 (0) | 2020.08.07 |
[R] R을 활용한 상관분석과 회귀분석 - 1 (0) | 2020.08.06 |
[R] R을 통한 텍스트마이닝에서 워드클라우드 까지 (1) | 2020.08.05 |
[R] R로 하는 비정형 데이터 처리 (facebook 데이터를 통한 긍정/부정 나누기) (0) | 2020.08.03 |