[R]R을 활용한 상관분석과 회귀분석 - 2

선형회귀분석 예측 모델에서 사용하는 알고리즘으로서 인과 관계를 분석하는 방법이다. 선형 회귀 분석 세가지 조건 1. x(독립변수) 가 변하는 것에 따라서 y(종속변수)도 변한다. 2.시각적으로 선행 되어야 한다. 3.외생변수를 통제한다 (다른 요인을 통제하고 인과관계를 분석한다) ※독립변수 - 설명 변수로서 영향을 주는 변수이다. ※종속변수 - 목표변수로서 영향을 받는 변수이다. 선형회귀 분석 종류 단순선형 회귀 분석 - 독립변수가 1가지 인 경우 다중선형회귀 분석 - 독립변수가 2가지 이상인 경우 lm() - lm함수는 linear model의 약자로 선형 모델을 맞추는 데 사용된다. 회귀 분석, 분산의 단일 계층 분석 및 공분산 분석을 수행하는 데 사용할 수 있다. lm(종속변수 ~ 독립변수 ,dat..

[R] R을 활용한 크롤링 - 로또 1등 당첨 배출점 크롤링 하기

해당 사이트의 배출점을 크롤링하겠다. 단순 페이지 크롤링에서 스크립트 기능까지 사용하는 크롤링 까지 하겠다. 크롤링을 하기 위해서는 첫번째로 내가 원하는 데이터의 위치를 알아야 한다. 저 배출점의 데이터 얻기 위해서는 개발자 도구(F12)에서 해당 부분을 클릭하면 아래와 같이 나온다. 이제 이 부분을 크롤링하기 위해 준비하자. #html 소스 가져오기 rvest는 R의 웹 스크래핑(Web Scraping)을 위한 패키지로 해당 패키지를 인스톨하고 라이브러리로 넣어준다. url은 해당 사이트의 주소이다. link 값에 html을 read 하고 확인하면 아래와 같이 해당 html 소스를 가져온 것을 볼 수 있다. ※ class는.으로 찾아들어가고 id는 #으로 찾아들어간다. #해당 값 가져오기 여기서부터는 ..

[R] R에서 교차검증을 위한 데이터 셋 분리방법 3가지

교차검증을 위한 데이터셋 분리에는 3가지 방법이 있습니다. 1. 단순 임의 추출 2.K-Fold 방식 3.Hold - Out방식 이 세 가지를 R을 통해 예제를 보며 진행하겠습니다. 1. 단순 임의 추출 sample을 사용해서 복원/비 복원 추출을 한다. 이 작업을 통해 데이터셋을 만든다. 별로 추천하지 않는 형태이다. 말 그대로 임의 추출이기 때문에 데이터가 한쪽으로 몰릴 수도 있다. 2.k-Fold 교차방식 k개의 fold를 만들어서 진행하는 교차검증이다. 이런 방식으로 모든 데이터를 한 번씩 테스트 셋으로 사용되게 하는 기법이다. 가장 추천하는 방법이다. 이 방법을 통해 여러가지 정확도를 얻게 되고 그걸 평균으로 값을 내거나 또는 각각의 케이스에 따른 경우를 가져갈 때도 있다. 패키지를 설치한다. ..

[R] R을 활용한 상관분석과 회귀분석 - 1

#상관분석 상관분석이란 하나의 변수와 다른 변수와의 밀접한 관련성이 있는지 분석하는 기법이다. 여기서는 상관분석을 통해 나온 상관계수와 그래프를 그리는 것까지 보여드릴 예정입니다. 키와 발의 상관관계를 분석하기 위해 간단하게 데이터를 써서 넣었다. 그걸 plot차트로 시각화했다. cor 이라는 명령어는 value 사이의 상관계수를 구하는 함수이다. 이때 상관계수가 1에 가까울수록 상관관계가 높음을 나타낸다. abline으로 발 사이즈의 평균과 키의 평균을 선으로 그린다. 예제 airquality Hmisc - 데이터 분석, 고급 그래픽, 유틸리티 작업, 샘플 크기 및 검정력 계산, 데이터 세트 가져오기 및 주석 달기, 결 측값 대치, 고급 테이블 작성, 변수 클러스터링, 문자열 조작, R 객체를 LaTe..

[R] R을 통한 텍스트마이닝에서 워드클라우드 까지

#텍스트 마이닝 시작전에 자바 jdk를 깔고 환경변수를 설정해줘야 한다. jdk를 통해 KoNLP 통해 돌리기 떄문이다. 이부분이 선행되야 나머지가 된다. KoNLP는 일반적인 인스톨을 해서는 안되고 위와같이 github라는 것을 통해서 받아야 한다. 없는부분은 install하자 java home의 위치나 버전은 사람마다 다를 수도 있으니 해당 경로를 맞춰주자. test라는 변수에 문자열을 넣어준다. extractNoun을 통해 명사를 추출해낸다. 이제 뽑아낸 명사를 전처리 하는 과정을 거친다. #전처리 명사를 추출한 데이터에서 nchar()를 통해 두글자 이상의 글자만 가져온다. 한글자로 만된 것중에 등 한 이런것들을 뺴기 위해서이다. table 함수를 사용해서 각각의 데이터가 몇번씩 나왔는지 확인한다..