[R] R로 하는 비정형 데이터 처리 (facebook 데이터를 통한 긍정/부정 나누기)
# 비정형 데이터 처리 일단 기본적인 패키지들을 install 하자 여기서는 페이스북의 데이터를 가져왔다. 데이터의 내용은 아래와 같다. 이런 식으로 각 행에 대해서 문장형 데이터가 들어가 있었다. 이 문장들을 전처리할 필요가 있었다. 그래서 정규표현식을 통해 전처리를 하였다. gsub을 통해서 정규표현식에 해당하는 데이터를 ''로 변환해주었다. 처음에는 문장부호를 제거하고 그다음에는 특수문자 , 숫자제거 이렇게 하였고 마지막에는 모든 대문자를 소문자로 바꿔주는 tolower를 사용하였다. 그다음은 str_split를 사용하여 공백을 통한 단어 분리를 하였다. 그다음 데이터 프레임 형식으로 된 데이터를 unlist를 사용하여 vector 형식으로 바꿔주었다. 이 다음에는 긍정 단어와 부정 단어의 데이터를..