[Data Science] 데이터 사이언스 개념 - 8.토픽 모델 / 네트워크 분석

토픽모델 토픽 모델(Topic model)이란 문서 집합의 추상적인 "주제"를 발견하기 위한 통계적 모델 중 하나로, 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 1.백오즈워즈와 음수 미포함 행렬 분해 백오브워즈 - 각 문서에서 단어의 출현 빈도를 행렬형식으로 정리한 것 대량의 문서중에 어떤 화제의 문장이 있는지 요약 정보를 얻고 싶을 때 사용한다. 희소행렬 - 값이 거의 0 인 행렬 문서 군의 요약을 구할 때는 이 희소행렬을 분해하는 방법을 사용하는 경우도 있다. 이것을 잠재의미 분석(Latent Semantic Analysis, LSA) 라고 부른다. 행렬의 각 요소가 양수인 성질에 주목하면 음수 미포함 행렬 분해라는 방법도 적용할 수 있다. 음수 미포함 행렬 분해 - ..