1. 데이터 이해
1-1. 데이터의 이해
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜
3. 데이터 분석
3-1. R 기초와 데이터 마트
3-2. 통계분석
3-3. 정형 데이터 마이닝
3-3-1. 데이터 마이닝 개요
3-3-2. 분류 분석
3-3-3. 군집 분석
3-3-4. 연관 분석
분류 분석
로지스틱 회귀모형
신경망 모형
의사결정나무 모형
앙상블 모형
분류 모형 평가
의사결정나무 모형
#의사결정나무 정의와 특징
- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
- 의사결정나무는 분류(classification)와 회귀(regression) 모두 가능하다.
- 복잡하지 않고 빠르게 만들 수 있다.
- 분류 정확도가 좋은 편이다.
- 다중공선성 영향을 안 받는다.
장점 |
단점 |
구조가 단순하여 해석이 용이하다. |
분류기준값의 경계선 부근의 자료값에 대해서는 오차가 크다. |
선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 *비모수적 모형 |
로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다. |
수치형/범주형 변수를 모두 사용할 수 있다는 점 |
새로운 자료에 대한 예측이 불안정할 수 있다. |
*비모수적 : 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산
#의사결정나무의 순도(homogeneity)와 불순도(불확실성, impurity)
- 각 영역의 순도가 증가, 불순도가 최대한 감소하는 방향을 학습을 진행한다.
- 순도가 증가/불확실성이 감소하는 걸 두고 정보이론에서는 정보획득(information gain)이라고 합니다.
- 불순도 측도 : 지니지수, 엔트로피 지수, 카이제곱통계량 (오분류오차은 잘 안 쓰임)
#의사결정나무 알고리즘 분류 및 기준변수의 선택법 ★
(1) 이산형 목표변수 |
(2) 연속형 목표변수 |
|
(3) CHAID |
카이제곱 통계량 |
ANOVA F 통계량 |
(4) CART |
지니계수 |
분산 감소량 |
(5) C5.0 |
엔트로피지수 |
(1) 목표변수가 이산형 목표변수인 경우 분류 기준
- 각 범주에 속하는 빈도에 기초하여 분리
- 오차율 분할 (잘못 분류된 관찰값의 수 / 전체 관찰값의 수)
- 카이제곱 통계량: 각 셀에 대한 (기대도수-실제도수)^2/기대도수 의 합
- 지니계수: 불평등 지수를 나타낼 때 사용하는 계수로 0이 가장 평등하고 1로 갈수록 불평등
- 엔트로피지수: 엔트로피 지수가 가장 작은 예측 변수와 이떄의 최적분리에 의해 자식마디를 형성함
(2) 목표변수가 연속형 목표변수인 경우 분류 기준 ★
- 평균과 표준편차에 기초하여 분리
- 잔차제곱합(SSR) 개선되는 방향으로 분할 (불필요한 지도학습,bias 낮고, variance 높음)
- F통계량: 모델 또는 모델 성분의 유의성을 검정하는 분산분석(ANOVA) 방식에 대한 검정 통계량
- 분산감소량: 예측오차를 최소화하는 것과 동일한 기준으로 분산의 감소량을 최대화하는 기준의 최적분리에 의해서 자식마디가형성.
(3) CHAID (Chi-square automatic interaction detection)
- 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력 변수가 반드시 범주형 변수이어야 한다.
(4) CART (Classification And Regression Tree)
- 가장 많이 활용되는 의사결정나무 알고리즘으로 불순도의 측력 변수가 범주형일 경우 지니지수를, 연속형일 경우 분산을 이용한 이진 분리를 사용한다.
(5) C5.0
- CART와는 다르게 각 마디에서 다지분리가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.
#이산형 목표변수와 연속형 목표변수 ★
- 목표변수가 이산형인 경우 분류나무, 연속형인 경우 회귀나무로 구분된다.
- 이산형 목표변수 : p 값은 작을 수록, 지니지수와 엔트로피 지수는 클수록 노드 내의 이질성이 크고 순수도가 낮다고 할 수 있다.
- 연속형 목표변수 : p값은 작아지고 분산의 감소량은 커질 수록 이질성이 높다.
#지니 지수 ★
- 범주가 두 개일 때 한쪽 범주에 속한 비율(p)이 0.5(두 범주가 각각 반반씩 섞여 있는 경우)일 때 불순도가 최대
예시: 행렬(A, B, C, A, C, C, A, D) 있을 경우 지니계수 구하는법
지니계수=1-(3/8)^2-(1/8)^2-(3/8)^2-(1/8)^2 = 0.69
(순서대로 8개 중 A는 3개, B는 1개, C는 3개, D는 1개)
#엔트로피 지수(Entropy measure)
- 엔트로피 지수가 가장 작은 예측 변수와 이떄의 최적분리에 의해 자식마디를 형성함
(참고 사이트)
https://ratsgo.github.io/machine%20learning/2017/03/26/tree/
https://exmemory.tistory.com/17
'Certificates > ADsP' 카테고리의 다른 글
[ADsP] 분류 분석 - 로지스틱 회귀모형 (0) | 2020.08.06 |
---|---|
[ADsP] 군집 분석 - SOM (Self-Organizing Maps, 자기조직화지도) (0) | 2020.08.03 |
[ADsP] 군집 분석 - 혼합 분포 군집 (EM 알고리즘) (0) | 2020.08.03 |
[ADsP] 군집 분석 - 비계층적 군집 (K-평균 군집 분석) (0) | 2020.08.03 |
[ADsP] 군집 분석 - 계층적 군집 (1) | 2020.08.03 |
댓글