Data scientist/Data Science

[Data Science] 데이터 사이언스 개념 - 7.비지도 학습

반응형

 

비지도 학습

 

 

1.K-평균법

 

 

k평균법 - 같은 클러스터 내의 데이터 점끼리 거리가 짧아지도록 데이터를 주어진 수의 클러스터로 분류하는 것

 

비지도 학습의 일종으로 클러스터링이다.

위와 같이 데이터가 어느 그룹에 속할지 결정하는 것이 목표이다.

 

k 평균법 구현하는 방법

  1. 데이터를 몇 개의 클러스터로 나눌지 결정한다. 

  2. 라벨을 랜덤으로 붙인다. 다음으로 각 라벨의 점의 중심을 계산해준다. 

  3. 큰 라벨처럼 중심점이 정해진다. 

  4. 다음으로 각  점에 가장 가까운 중심점과 같은 라벨을 다시 칠해준다.

  5.  이것을 반복하고 각 라벨의 갱신을 반복해간다.

 

 

2.계층적 클러스터링

 

 

계층적 클러스터링 - 하나하나의 데이터를 근접한 데이터와 결합함으로써 바텀업 방식으로 클러스터링하는 방법

 

 

계층적 클러스터링을 구현 하는 방법

  1. 클러스터수를 데이터 수와 같게 설정하고 하나하나의 데이터가 각 클러스터에 속해 있다고한다.

  2. 클러스터끼리의 거리를 모두 계산해, 가장 거리가 가까운 2개의 클러스터를 하나로 결합

  3. 이때 거리를 높이로 해서 어느 클러스터를 결합했는지 기록한다.(덴드로그램)

  4. 새로 만들어진 클러스터는 클러스터 내 데이터 중심점을 대표점으로 하여 새로 설정하고 남은 클러스터와 데이터 점과의 거리를 다시 계산한다

  5. 반복

 

 

 

3.주성분 분석

 

 

주성분 분석 - 다수의 변수를 소수로 줄여 데이터를 다시 표현

 

이것을 차원감소라고 부른다.

 

변수에 상관관계가 없으면 유효한 방법은 아니지만, 주가의 시계열 등 변수 개수와 비교해 분산을 낳는 주요인이 적을 때 매우 효과적인 방법이다.

 

주성분 분석의 경우 분산을 많이 설명하는 것이 좋은 표현이다.

 

이 e1과 e2 두개의 벡터로 데이터 분포를 설명하는 것

데이터들의 분산이 가장 큰 방향벡터를 의미한다.

 

 

 

4.주성분 분석과 특잇값 분해

 

 

특잇값 분해  - 행렬 X에 대해서 행렬 분해를 해서 행렬을 대각화하는 방법이다.

주성분 분석과 특잇값 분해는 수학적으로 비슷한 문제를 해결한다.

 


본 내용은 그림으로 배우는 DataScience 데이터 과학을 참고한 내용입니다



출처: https://continuous-development.tistory.com/210?category=833358 [나무늘보의 개발 블로그]

반응형