본문 바로가기
Certificates/ADsP

[ADsP] 군집 분석 - 혼합 분포 군집 (EM 알고리즘)

by Air’s Big Data 2020. 8. 3.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 
3-2. 통계분석 
3-3. 정형 데이터 마이닝 
  3-3-1. 데이터 마이닝 개요 
  3-3-2. 분류 분석 
  3-3-3. 군집 분석 
  3-3-4. 연관 분석

 

 

군집 분석

- 군집 분석은 관측값들을 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 군집의 특성을 파악하여 군집사이의 관계를 분석하는 다변량분석 기법이다. 

- 군집 분석 종류 : 

계층적 군집

비계층적 군집 (K-means)

혼합 분포 군집 (EM 알고리즘)

SOM

 

 

혼합 분포 군집

#혼합 분포의 정의 및 특징

- 데이터가 k개의 모수적 모형(정규분포 혹은 다변량 분포를 가정)의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에서, 모수와 함께 가중치를 자료로부터 추정하는 방법

- 데이터가 k개의 모수적 모형(군집)의 가중합으로부터 나왔다는 가정

- 각 데이터는 k개의 추정된 모형 중 어느 모형에 속할 확률이 높은지에 따라 분류

- k개의 각 모형은 군집을 의미하여, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분포가 이뤄짐

 

 

(혼합 분포모형으로 설명할  수 있는 데이터 , 출처:위키피디아)

 

#K-means vs 혼합분포군집
- 두 방법 모두 1개의 클러스터로 출발
- k-mean은 클러스터를 중심거리로, EM은 MSL로 거리측정
- 클러스터를 늘리면 이전보다 클러스터 중심에서 평균 거리는 짧아지고 EM은 우도가 커짐
- 혼합분포군집은 확률분포를 도임하여 군집을 수행하는 점이 다름
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 오래걸리고, 군집의 크기가 작으면 추정의 정도가 떨어짐
- k-mean 평균과 같이 이상값에 민감함

(Comparison of  k-means  and EM, Wikipedia)

 

#EM(Expectation Maximizaion) 알고리즘의 정의와 특징
- 혼합모형에서 모수와 가중치의 추정을 위해 사용되는 알고리즘
- 통계 모델의 수식을 정확히 풀 수 없을 때 최대가능도/최대우도(Maximun Likelihood Estimation)를 구하는데 사용된다.
- 미지의 분포 파라미터를 주어진 데이터를 가지고 예측하고 그 예측값을 다시 주어진 데이터를 기반으로 기대치를 최대화시키는
- 파라미터를 구하는 과정을 반복하면서 최적 파라미터(최대 우도추정치를 얻는 방법
- 초기 클러스터의 개수를 정해줘야 함
- k-fold cross validation으로 적절한 클러스터 개수를 찾을 수 있음

 

(EM clustering of  Old Faithful  eruption dat, Wikipedia)

 

 

#EM(Expectation Maximizaion) 알고리즘의 진행 과정  

E-단계 잠재변수 Z의 기대치 계산
M-단계 잠재변수 Z의 기대치를 이용하여 파라미터 추정

- E-단계: 각 자료에 대해 Z의 조건부분포(어느 집단에 속할지에 대한)로부터 조건부 기댓값을 구할 수 있음

- M-단계: 관측변수 X와 잠재변수 Z를 포함하는 (X, Z)에 대한 로그-가능도함수(이를 보정된(augmented) 로그-가능도함수라 함)에 Z 대신 상수값인 Z의 조건부 기댓값을 대입하면, 로그-가능도함수를 최대로 하는 모수를 쉽게 찾을 수 있다.

- 갱신된 모수 추정치에 대해 위 과정을 반복한다면 수렴하는 값을 얻게되고, 이는 최대 가능도 추정치로 사용될 수 있다.

 

 

 

(참고 사이트)

https://specialscene.tistory.com/86

https://logoflife.tistory.com/42

댓글