1. 데이터 이해
1-1. 데이터의 이해
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜
3. 데이터 분석
3-1. R 기초와 데이터 마트
3-2. 통계분석
3-3. 정형 데이터 마이닝
3-3-1. 데이터 마이닝 개요
3-3-2. 분류 분석
3-3-3. 군집 분석
3-3-4. 연관 분석
군집 분석
- 군집 분석은 관측값들을 유사한 성격을 가지는 몇 개의 군집으로 집단화하고, 군집의 특성을 파악하여 군집사이의 관계를 분석하는 다변량분석 기법이다.
- 군집 분석 종류 :
혼합 분포 군집
#혼합 분포의 정의 및 특징
- 데이터가 k개의 모수적 모형(정규분포 혹은 다변량 분포를 가정)의 가중합으로 표현되는 모집단 모형으로 부터 나왔다는 가정하에서, 모수와 함께 가중치를 자료로부터 추정하는 방법
- 데이터가 k개의 모수적 모형(군집)의 가중합으로부터 나왔다는 가정
- 각 데이터는 k개의 추정된 모형 중 어느 모형에 속할 확률이 높은지에 따라 분류
- k개의 각 모형은 군집을 의미하여, 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집의 분포가 이뤄짐
#K-means vs 혼합분포군집
- 두 방법 모두 1개의 클러스터로 출발
- k-mean은 클러스터를 중심거리로, EM은 MSL로 거리측정
- 클러스터를 늘리면 이전보다 클러스터 중심에서 평균 거리는 짧아지고 EM은 우도가 커짐
- 혼합분포군집은 확률분포를 도임하여 군집을 수행하는 점이 다름
- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴하는데 시간이 오래걸리고, 군집의 크기가 작으면 추정의 정도가 떨어짐
- k-mean 평균과 같이 이상값에 민감함
#EM(Expectation Maximizaion) 알고리즘의 정의와 특징
- 혼합모형에서 모수와 가중치의 추정을 위해 사용되는 알고리즘
- 통계 모델의 수식을 정확히 풀 수 없을 때 최대가능도/최대우도(Maximun Likelihood Estimation)를 구하는데 사용된다.
- 미지의 분포 파라미터를 주어진 데이터를 가지고 예측하고 그 예측값을 다시 주어진 데이터를 기반으로 기대치를 최대화시키는
- 파라미터를 구하는 과정을 반복하면서 최적 파라미터(최대 우도추정치를 얻는 방법
- 초기 클러스터의 개수를 정해줘야 함
- k-fold cross validation으로 적절한 클러스터 개수를 찾을 수 있음
#EM(Expectation Maximizaion) 알고리즘의 진행 과정 ★
E-단계 | 잠재변수 Z의 기대치 계산 |
M-단계 | 잠재변수 Z의 기대치를 이용하여 파라미터 추정 |
- E-단계: 각 자료에 대해 Z의 조건부분포(어느 집단에 속할지에 대한)로부터 조건부 기댓값을 구할 수 있음
- M-단계: 관측변수 X와 잠재변수 Z를 포함하는 (X, Z)에 대한 로그-가능도함수(이를 보정된(augmented) 로그-가능도함수라 함)에 Z 대신 상수값인 Z의 조건부 기댓값을 대입하면, 로그-가능도함수를 최대로 하는 모수를 쉽게 찾을 수 있다.
- 갱신된 모수 추정치에 대해 위 과정을 반복한다면 수렴하는 값을 얻게되고, 이는 최대 가능도 추정치로 사용될 수 있다.
(참고 사이트)
'Certificates > ADsP' 카테고리의 다른 글
[ADsP] 분류 분석 - 로지스틱 회귀모형 (0) | 2020.08.06 |
---|---|
[ADsP] 군집 분석 - SOM (Self-Organizing Maps, 자기조직화지도) (0) | 2020.08.03 |
[ADsP] 군집 분석 - 비계층적 군집 (K-평균 군집 분석) (0) | 2020.08.03 |
[ADsP] 군집 분석 - 계층적 군집 (1) | 2020.08.03 |
[ADsP] 의사결정나무 (0) | 2020.08.01 |
댓글