Base/R

[R] R로 하는 비정형 데이터 처리 (facebook 데이터를 통한 긍정/부정 나누기)

반응형

# 비정형 데이터 처리 

일단 기본적인 패키지들을 install 하자 

여기서는 페이스북의 데이터를 가져왔다. 데이터의 내용은 아래와 같다. 

이런 식으로 각 행에 대해서 문장형 데이터가 들어가 있었다.

 

 

이 문장들을 전처리할 필요가 있었다. 그래서 정규표현식을 통해 전처리를 하였다. 

gsub을 통해서 정규표현식에 해당하는 데이터를 ''로 변환해주었다.

처음에는 문장부호를 제거하고 그다음에는 특수문자 , 숫자제거 이렇게 하였고 마지막에는 모든 대문자를 소문자로 바꿔주는 tolower를 사용하였다.

 

 

그다음은 str_split를 사용하여 공백을 통한 단어 분리를 하였다. 그다음 데이터 프레임 형식으로 된 데이터를 

 

unlist를 사용하여 vector 형식으로 바꿔주었다.

 

이 다음에는 긍정 단어와 부정 단어의 데이터를 통해 내가 가지고 있는 데이터와 매칭 하는 작업을 하였다.

아래 함수를 생성했다. 이 함수를 통해 긍정 / 부정 / 중립을 나눴다.

이런식으로 각 단어에 대한 긍정 부정을 볼 수 있다.

 

이렇게 긍정 부정중립의 개ㅔ수를 셀수 있다.

 

이걸 파이차트로 나타내면 아래와 같다.

 

반응형