Base/R

[R] R을 활용한 상관분석과 회귀분석 - 1

반응형

#상관분석

상관분석이란 하나의 변수와 다른 변수와의 밀접한 관련성이 있는지 분석하는 기법이다. 

여기서는 상관분석을 통해 나온 상관계수와 그래프를 그리는 것까지 보여드릴 예정입니다. 

키와 발의 상관관계를 분석하기 위해 간단하게 데이터를 써서 넣었다. 그걸 plot차트로 시각화했다.

 

cor 이라는 명령어는 value 사이의 상관계수를 구하는 함수이다.

이때 상관계수가 1에 가까울수록 상관관계가 높음을 나타낸다.

 

abline으로 발 사이즈의 평균과 키의 평균을 선으로 그린다.

 

 

 

예제 airquality 

 

Hmisc - 데이터 분석, 고급 그래픽, 유틸리티 작업, 샘플 크기 및 검정력 계산, 데이터 세트 가져오기 및 주석 달기, 결 측값 대치, 고급 테이블 작성, 변수 클러스터링, 문자열 조작, R 객체를 LaTeX로 변환하는 데 유용한 많은 기능이 있다.

psych -성격, 심리 이론 및 실험 심리학을위한 범용 툴박스. 함수는 주로 요인 분석, 주성분 분석, 군집 분석 및 신뢰도 분석을 사용하는 다변량 분석 및 척도 구성을 위한 것이지만 다른 함수는 기본적인 기술 통계를 제공해준다.

airquality에서 몇 가지 속성 값을 가지고 와서 산점도 행렬을 그려보았다.

 

아래 산점행렬도를 봤을 때 Ozone이랑 Temp가 0.70의 상관계수로 가장 상관관계가 있다. 

 

 

 

이 두가지 컬럼 값을 그래프로 두 가지 변수를 그래프로 그려본다.

 

상관계수를 구하기 위해서는 결측값이 존재해서는 안된다.

이렇게 결측값이 있으면 cor을 쓸 수가 없다.

 

 

아래 complete.cases 함수를 통해 결측치를 제외한 나머지 값을 air02에 넣는다.

 

 

값을 확인해본다.

 

#상관 계수를 시각화 하는 작업

method의 종류에 따라 다양한 방식으로 출력이 된다.

 

 


예제

 

 

데이터를 인터넷으로 받고 값을 확인해봤다.

 

 

cor.test( )

cor.test는 상관계수 검정을 하는 함수로서 상관 계수 검정 Correlation Test을 수행하여 상관 계수의 통계적 유의성을 판단할 수 있다. 

지금 귀무가설에 대해 대립가설로 검정을 진행한다고 가정했을 때

지금 결과에서는 95프로의 신뢰구간이 0.52589~ 0.6407515 정도가 되고 상관계수 값이 이 안에 들어온다면 대립 가설을 채택한다.

우리가 구한 cor(상관계수) 은 0.5859863이다.

p-value 의 유의 수준이 0.05이다. 2.2의 -16승이다. 이 결과를 보고 귀무가설이 잘못되고 대립 가설을 채택해야 된다고 생각해야 한다.

t는 검정 통계량, p-value는 유의 확률이다.

우리가 봐야될것은 p-value( 유의 확률)를 봐야 한다.

p-value - 내가 현재 구한 통계 값이 얼마나 자주 나올 것인가를 나타낸다. 

 

 

 

 

 

실습

 

 

 

 

 

반응형