본문 바로가기
Certificates/ADsP

[ADsP] 분류 모형 평가

by Air’s Big Data 2020. 8. 10.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 
3-2. 통계분석 
3-3. 정형 데이터 마이닝 
  3-3-1. 데이터 마이닝 개요 
  3-3-2. 분류 분석 
  3-3-3. 군집 분석 
  3-3-4. 연관 분석

 

 

분류 분석

로지스틱 회귀모형
신경망 모형
의사결정나무 모형 
앙상블 모형
분류 모형 평가

 

 

분류 모형 평가

#분류 모형 평가

 - 구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지, 고려된 모형들 중 어느 것이 가장 우수한지 등을 비교 분석하는 과정

 

#모형 평가 기준

(1) 일반화의 가능성

  - 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준

  - 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는 것을 의미

(2) 효울성

  - 얼마나 효과적으로 구축되었는지 평가

  - 적은 입력변수를 필요로 할수록 효율적

(3)예측과 분류의 정확성

  - 모형의 정확성 측면에서 평가

 

 

#모형 평가 절차 1. 훈련용 자료와 검증용 자료 추출

 - 훈련용 자료는 모형 구축용도, 검증용 자료는 모형 검증 용도

 - 주어진 데이터에서만 성과를 보이는 과적합화를 해결하기 위한 단계

 - 잘못된 가설을 가정하게 되는 2종 오류를 방지

 

 (1) 홀드아웃(hold-out)

  - 랜덤 추출 방식

  - 훈련용, 검증용 데이터 비율을 7:3으로 함

 

(2) 교차검증(cross-validation)

  - 데이터를 k개로 나누어 k번 반복측정하고, 그 결과를 평균 내어 최종 평가로 사용

  - 일반적으로 10-fold 교차 검증이 사용됨

 

 (3) 붓스트랩(bootstrap)

  - 교차검증과 유사하게 평가를 반복하지만, 훈련용 자료를 반복 재선정한다는 점에서 차이가 있음

  - 관측치를 한번 이상 훈련용 자료로 사용하는 복원 추출법에 기반

  - 전체 데이터의 양이 크지 않은 경우의 모형 평가에 가장 적합

 

 

#모형 평가 절차 2. 모형 학습 및 성능 평가

 - 훈련용 자료로 모형을 학습한 뒤, 검증용 자료를 사용해 모형의 분류 및 예측 정확도를 평가

 - 분류 모형 평가에 사용되는 방법

(1) 오분류표 ★

  Predicted
Positive Negative
Actual Positive True Positive False Negative
Nagative False Positive True Negative

 - 정분류율(Accuracy) : 전체 관측치 중 실제값과 예측치가 일치한 정도

   (TP+TN)/TP+FN+FP+TN = (TP+TN)/전체

 - 오분류율(Error rate) : 모형이 제대로 예측하지 못한 관측치

    (FP+FN)/(P+N) = 1-정분류율(Accuracy)

 - 재현율(Recall), 민감도(Sensitivity) : 실제 True인 관측치 중 예측치가 적중한 정도

    TP/(TP+FN)

 - 특이도(Specificity) : 실제값이 False인 관측치 중 예측치가 적중한 정도

   TN/(FP+TN)

 - 정확도(Precison) : True로 예측한 관측치 중 실제 값이 True인 정도

   TP/(TP+FP)

 - F1지표 : 재현율과 정확도의 조화평균

   (재현율과 정확도가 반비례할 높은 가능성을 보정하기 위한 지표)

 

(참고 사이트)

https://logoflife.tistory.com/28

'Certificates > ADsP' 카테고리의 다른 글

[ADsP] 결측값 처리와 이상값 검색  (0) 2020.08.15
[ADsP] 회귀분석  (0) 2020.08.12
[ADsP] 앙상블 모형  (0) 2020.08.07
[ADsP] 신경망 모형  (0) 2020.08.07
[ADsP] 데이터 마이닝 개요  (0) 2020.08.06

댓글