본문 바로가기
Certificates/ADsP

[ADsP] 군집 분석 - 계층적 군집

by Air’s Big Data 2020. 8. 3.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 
3-2. 통계분석 
3-3. 정형 데이터 마이닝 
  3-3-1. 데이터 마이닝 개요 
  3-3-2. 분류 분석 
  3-3-3. 군집 분석 
  3-3-4. 연관 분석

 

계층적 군집

#계층적 군집 정의 및 특징

 - 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법

    (n개의 군집으로 시작해 점차 군집의 개수를 줄어나가는 방법)

 - 군집을 형성하는 매 단계에서 지역적 최적화를 수행해 나가는 방법 (전역적인 최적해라고 볼 수 없음)

 - 단일, 완전, 평균, 중심결합기준, 와드

 - 계층적 군집의 결과는 덴드로그램의 형태로 표현

  (* 덴드로그램을 통해 항목간의 거리, 군집간의 거리를 알 수 있고, 항목간 유사정도를 파악하여 견고성을 해석할 수 있다.)

(덴드로그램, 출처:위키피디아)

#계층적 군집 방법

 1) 병합적(응집형) 방법: Bottom-up

    - 작은 군집에서 출발하여 거리가 가까운 순으로 병합해 나가는 방법

    (하나의 군집이 남을 때 까지 순차적으로 군집들을 병합)

    - R에서 agnes(), mclust() 함수를 이용한다.

 2) 분할적(분리형) 방법: Top-down

    - 큰 군집에서 출발하여 군집을 분리해 나가는 방법

    (하나의 군집에서 n개 군집으로 분리)

    - R에서 diana(), mona() 함수를 이용한다.

 

#군집 간 거리 측정 방법 (연결법)

 1) 최단연결법(단일연결법)

    - 각 군집에서 관측값을 뽑았을 때 나타날 수 있는 거리의 최소값을 군집간 거리로 한다.

    - 사슬 모양으로 생길 수 있음

    - 고립된 군집을 찾는데 중점을 둔 방법

 2) 최장연결법(완전연결법)

    - 각 군집에서 관측값을 뽑았을 때 나타날 수 있는 거리의 최대값을 군집간 거리로 한다.

    - 군집들의 내부 응집성에 중점을 둔 방법

 3) 중심연결법

    - 두 군집의 중심간 거리를 군집간 거리로 한다.

    - 군집이 결합될 때, 새로운 군집의 평균은 가중평균을 통해 구해진다.

 4) 평균연결법

    - 모든 항목에 대한 거리 평균을 구하면서 군집화를 수행한다.

    - 계산량이 불필요하게 많아질 수 있다.

 4) 와드연결법(ward linkage)

    - 군집내의 오차제곱합에 기초하여 군집을 수행한다.

    - 군집이 병합되면 오차제곱합은 증가하는데, 증가량이 가장 작아지도록 군집을 형성한다.

    - 크기가 비슷한 군집끼리 병합하게 되는 경향이 있다.

 

#유클리드(유클리디안, Euclidean) 거리

 - 데이터간 유사성 측정을 위해 사용, 통계적 개념이 내포X, 변수들의 산포정도 감안X   

   예시)


 

#맨하탄(Manhattan) 거리

 - 유클리드와 함께 가장 많이 쓰는 거리, 건물간 최단거리 계산 ★

   예시)

 

 

 

#그 밖의 거리

 - 표준화 (Statistical) 거리: 해당 변수의 표준편차로 척도 변환 후 유클리디안 거리를 계산

 

    - 마할라노비스 거리: 통계적 개념이 포함된 거리, 변수들의 산포를 고려하여 표준화한 거리

    - 민코우스키(Minkowski) 거리

    - 체비셰프 거리 (체스보드 거리, 최고 거리)

    - 캔버라 거리

#군집 간 거리 (연속형, 범주형 변수)

 1) 연속형 변수: 유클리디안 거리, 표준화 거리, 마할노비스거리, 체비셰프 거리, 맨하탄 거리, 캔버라 거리, 민코우스키 거리

 2) 범주형 변수: 카드 거리, 자카드 계수, 코사인 거리, 코사인 유사도

 

 

#군집 간 거리 (수학적, 통계적 거리)

 1) 수학적 거리: 유클리드 거리, 맨하튼 거리, 민코우스키 거리

 2) 통계적 거리: 표준화 거리, 마할라노비스 거리

 

 

(참고 사이트)

https://blog.naver.com/wjddudwo209/80208217440

https://data-make.tistory.com/148

http://hleecaster.com/ml-distance-formula/

댓글