본문 바로가기
Certificates/ADsP

[ADsP] 의사결정나무

by Air’s Big Data 2020. 8. 1.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 
3-2. 통계분석 
3-3. 정형 데이터 마이닝 
  3-3-1. 데이터 마이닝 개요 
  3-3-2. 분류 분석 
  3-3-3. 군집 분석 
  3-3-4. 연관 분석

 

 

 

분류 분석

로지스틱 회귀모형
신경망 모형
의사결정나무 모형 
앙상블 모형
분류 모형 평가

 

 

의사결정나무 모형 

#의사결정나무 정의와 특징

- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법

- 의사결정나무는 분류(classification)와 회귀(regression) 모두 가능하다.

- 복잡하지 않고 빠르게 만들 수 있다.

- 분류 정확도가 좋은 편이다.

- 다중공선성 영향을 안 받는다. 

장점

단점

구조가 단순하여 해석이 용이하다.

분류기준값의 경계선 부근의 자료값에 대해서는 오차가 크다.

선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 *비모수적 모형

로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다.

수치형/범주형 변수를 모두 사용할 수 있다는 점

새로운 자료에 대한 예측이 불안정할 수 있다. 

 *비모수적 : 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산

 

 

#의사결정나무의 순도(homogeneity)불순도(불확실성, impurity) 

- 각 영역의 순도가 증가, 불순도가 최대한 감소하는 방향을 학습을 진행한다.

- 순도가 증가/불확실성이 감소하는 걸 두고 정보이론에서는 정보획득(information gain)이라고 합니다.

- 불순도 측도 : 지니지수, 엔트로피 지수, 카이제곱통계량 (오분류오차은 잘 안 쓰임)

 

 

#의사결정나무 알고리즘 분류 및 기준변수의 선택법 ★

 

(1) 이산형 목표변수

(2) 연속형 목표변수 

(3) CHAID

카이제곱 통계량

ANOVA F 통계량

(4) CART

지니계수

분산 감소량

(5) C5.0

엔트로피지수

 

 (1) 목표변수가 이산형 목표변수인 경우 분류 기준

  - 각 범주에 속하는 빈도에 기초하여 분리

  - 오차율 분할 (잘못 분류된 관찰값의 수 / 전체 관찰값의 수)

  - 카이제곱 통계량: 각 셀에 대한 (기대도수-실제도수)^2/기대도수 의 합

  - 지니계수: 불평등 지수를 나타낼 때 사용하는 계수로 0이 가장 평등하고 1로 갈수록 불평등

  - 엔트로피지수: 엔트로피 지수가 가장 작은 예측 변수와 이떄의 최적분리에 의해 자식마디를 형성함

 (2) 목표변수가 연속형 목표변수인 경우 분류 기준

  - 평균과 표준편차에 기초하여 분리

  - 잔차제곱합(SSR) 개선되는 방향으로 분할 (불필요한 지도학습,bias 낮고, variance 높음)

  - F통계량: 모델 또는 모델 성분의 유의성을 검정하는 분산분석(ANOVA) 방식에 대한 검정 통계량

  - 분산감소량: 예측오차를 최소화하는 것과 동일한 기준으로 분산 감소량을 최대화하는 기준의 최적분리에 의해서 자식마디가형성.

(3) CHAID (Chi-square automatic interaction detection)

  - 가지치기를 하지 않고 적당한 크기에서 나무모형의 성장을 중지하며 입력 변수가 반드시 범주형 변수이어야 한다.

(4) CART (Classification And Regression Tree)

  - 가장 많이 활용되는 의사결정나무 알고리즘으로 불순도의 측력 변수가 범주형일 경우 지니지수를, 연속형일 경우 분산을 이용한 이진 분리를 사용한다.

(5) C5.0

  - CART와는 다르게 각 마디에서 다지분리가 가능하며 범주형 입력변수에 대해서는 범주의 수만큼 분리가 일어난다.

 

 

#이산형 목표변수와 연속형 목표변수

- 목표변수가 이산형인 경우 분류나무, 연속형인 경우 회귀나무로 구분된다.

- 이산형 목표변수 : p 값은 작을 수록, 지니지수와 엔트로피 지수는 클수록 노드 내의 이질성이 크고 순수도가 낮다고 할 수 있다.
- 연속형 목표변수 : p값은 작아지고 분산의 감소량은 커질 수록 이질성이 높다.

 

 

#지니 지수

- 범주가 두 개일 때 한쪽 범주에 속한 비율(p)이 0.5(두 범주가 각각 반반씩 섞여 있는 경우)일 때 불순도가 최대

   예시: 행렬(A, B, C, A, C, C, A, D) 있을 경우 지니계수 구하는법

         지니계수=1-(3/8)^2-(1/8)^2-(3/8)^2-(1/8)^2 = 0.69

        (순서대로 8개 중 A는 3개, B는 1개, C는 3개, D는 1개)

 

 

#엔트로피 지수(Entropy measure)

- 엔트로피 지수가 가장 작은 예측 변수와 이떄의 최적분리에 의해 자식마디를 형성함

 

 

 

(참고 사이트)

https://ratsgo.github.io/machine%20learning/2017/03/26/tree/

https://exmemory.tistory.com/17

https://freedata.tistory.com/38

https://m.blog.naver.com/nknn2004/221824587685

댓글