반응형
# 비정형 데이터 처리
일단 기본적인 패키지들을 install 하자
여기서는 페이스북의 데이터를 가져왔다. 데이터의 내용은 아래와 같다.
이런 식으로 각 행에 대해서 문장형 데이터가 들어가 있었다.
이 문장들을 전처리할 필요가 있었다. 그래서 정규표현식을 통해 전처리를 하였다.
gsub을 통해서 정규표현식에 해당하는 데이터를 ''로 변환해주었다.
처음에는 문장부호를 제거하고 그다음에는 특수문자 , 숫자제거 이렇게 하였고 마지막에는 모든 대문자를 소문자로 바꿔주는 tolower를 사용하였다.
그다음은 str_split를 사용하여 공백을 통한 단어 분리를 하였다. 그다음 데이터 프레임 형식으로 된 데이터를
unlist를 사용하여 vector 형식으로 바꿔주었다.
이 다음에는 긍정 단어와 부정 단어의 데이터를 통해 내가 가지고 있는 데이터와 매칭 하는 작업을 하였다.
아래 함수를 생성했다. 이 함수를 통해 긍정 / 부정 / 중립을 나눴다.
이런식으로 각 단어에 대한 긍정 부정을 볼 수 있다.
이걸 파이차트로 나타내면 아래와 같다.
반응형
'Base > R' 카테고리의 다른 글
[R] R을 활용한 상관분석과 회귀분석 - 1 (0) | 2020.08.06 |
---|---|
[R] R을 통한 텍스트마이닝에서 워드클라우드 까지 (1) | 2020.08.05 |
[R] R에서 Database 사용하기 / DB 기본적인 구문 사용하기 (0) | 2020.08.03 |
[R] 예제를 통한 데이터 전처리 작업 (0) | 2020.08.03 |
[R] R을 통해 시계열 그래프 만들기 (자료 분석을 위한 시각화와 실습 예제) (0) | 2020.07.30 |