본문 바로가기
Certificates/ADsP

[ADsP] 군집 분석 - 비계층적 군집 (K-평균 군집 분석)

by Air’s Big Data 2020. 8. 3.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 
3-2. 통계분석 
3-3. 정형 데이터 마이닝 
  3-3-1. 데이터 마이닝 개요 
  3-3-2. 분류 분석 
  3-3-3. 군집 분석 
  3-3-4. 연관 분석

 

 

군집 분석

계층적 군집

비계층적 군집 (K-means)

혼합 분포 군집 (EM 알고리즘)

SOM

 

비계층적 군집방법 

#비계층적 군집방법의 정의 및 특징

 - n개의 개체를 g개의 군집으로 나눌 수 있는 모든 방법을 점검해 최적화한 군집을 형성

 - 자료의 크기에 제약이 없음

 

#비계층적 군집방법의 장점과 단점

비계층적 군집화의 장점 비계층적 군집화의 단점

- 주어진 데이터의 내부구조에 대한 사전정보 없이 의미있는 자료구조를 찾을 수 있다.

- 다양한 형태의 데이터에 적용이 가능하다.

- 분석방법 적용이 용이하다.

- 가중치와 거리정의가 어렵다.

- 초기 군집수를 결정하기 어렵다. 

- 사전에 주어진 목적이 없으므로 결과 해석이 어렵다.

 

K-평균 군집 분석 (K-means Clustering)  

#K-평균 군집 분석의 정의 및 특징

- 원하는 수 만큼 초기값을 지정하고, 각 개체를 가까운 초기값에 할당하여 군집을 형성 한 후, 각 군집의 평균을 재계산하여 초기값을 갱신한 뒤 갱신된 값에 대해 위의 할당 과정을 반복하여 k개의 최종군집을 형성하는 방법

 - 거리계산을 통해 군집화가 이루어지므로 연속형 변수에 활용이 가능하다.

 - K개의 초기 중심값은 임의로 선택 가능, 가급적 멀리 떨어지는 것이 바람직하다.

 - 초기 중심값이 일렬(위아래, 좌우)로 선택되면 군집 혼합이 되지 않고 층으로 나뉠 수 있으니 주의해야 한다.

 - 초기 중심값의 선정에 따라 결과가 달라진다. → 그래서 코딩할때도 seed값을 고정한다.

 - 초기 중심으로부터의 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘 이므로 안정된 군집은 보장하나 최적이라는 보장은 없다.

 

#K-means Clustering 과정 ★

 - 원하는 군집의 갯수(=K)와 초기값(seed)들을 정해 seed 중심으로 군집을 형성

 - 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

 - 각 군집의 seed값을 다시 계산

 - 모든 개체가 군집으로 할당될 때까지 위와같은 과정 계속 반복

(k-평균 군집 알고리즘, 출처:위키피디아)

 

#K-평균 군집 분석의 장점과 단점

K-means Clustering의 장점  K-means Clustering의 단점
- 알고리즘이 단순하며, 빠르게 수행되어 분석 방법 적용용이
- 계층적 군집분석에 비해 많은 양의 데이터를 다룰 수 있음
- 내부 구조에 대한 사전정보가 없어도 의미있는 자료구조를 찾을수 있음
- 다양한 형태의 데이터에 적용 가능
- 군집의 수, 가중치와 거리 정의가 어려움
- seed값에 따라 결과가 달라질 수 있음(항상 일정한 결과 X)
- 사전에 주어진 목적이 없으므로 결과 해석이 어려움
- 잡음이나 이상값의 영향을 많이 받는다
- 볼록한 형태가 아닌 (non-convex) 군집이(예를 들어 U형태의 군집) 존재할 경우에는 성능이 떨어짐

 

 

 

(참고 사이트)

http://dorimriverst000.blogspot.com/2018/07/adsp-iii_29.html

https://logoflife.tistory.com/42

댓글