1. 데이터 이해
1-1. 데이터의 이해
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜
3. 데이터 분석
3-1. R 기초와 데이터 마트
3-2. 통계분석
3-3. 정형 데이터 마이닝
3-3-1. 데이터 마이닝 개요
3-3-2. 분류 분석
3-3-3. 군집 분석
3-3-4. 연관 분석
분류 분석
로지스틱 회귀모형
신경망 모형
의사결정나무 모형
앙상블 모형
분류 모형 평가
분류 모형 평가
#분류 모형 평가
- 구축된 모형이 임의의 모형보다 더 우수한 분류 성과를 보이는지, 고려된 모형들 중 어느 것이 가장 우수한지 등을 비교 분석하는 과정
#모형 평가 기준
(1) 일반화의 가능성
- 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준
- 모집단 내의 다른 데이터에 적용해도 안정적인 결과를 제공하는 것을 의미
(2) 효울성
- 얼마나 효과적으로 구축되었는지 평가
- 적은 입력변수를 필요로 할수록 효율적
(3)예측과 분류의 정확성
- 모형의 정확성 측면에서 평가
#모형 평가 절차 1. 훈련용 자료와 검증용 자료 추출
- 훈련용 자료는 모형 구축용도, 검증용 자료는 모형 검증 용도
- 주어진 데이터에서만 성과를 보이는 과적합화를 해결하기 위한 단계
- 잘못된 가설을 가정하게 되는 2종 오류를 방지
(1) 홀드아웃(hold-out)
- 랜덤 추출 방식
- 훈련용, 검증용 데이터 비율을 7:3으로 함
(2) 교차검증(cross-validation)
- 데이터를 k개로 나누어 k번 반복측정하고, 그 결과를 평균 내어 최종 평가로 사용
- 일반적으로 10-fold 교차 검증이 사용됨
(3) 붓스트랩(bootstrap)
- 교차검증과 유사하게 평가를 반복하지만, 훈련용 자료를 반복 재선정한다는 점에서 차이가 있음
- 관측치를 한번 이상 훈련용 자료로 사용하는 복원 추출법에 기반
- 전체 데이터의 양이 크지 않은 경우의 모형 평가에 가장 적합
#모형 평가 절차 2. 모형 학습 및 성능 평가
- 훈련용 자료로 모형을 학습한 뒤, 검증용 자료를 사용해 모형의 분류 및 예측 정확도를 평가
- 분류 모형 평가에 사용되는 방법
(1) 오분류표 ★
Predicted | |||
Positive | Negative | ||
Actual | Positive | True Positive | False Negative |
Nagative | False Positive | True Negative |
- 정분류율(Accuracy) : 전체 관측치 중 실제값과 예측치가 일치한 정도
(TP+TN)/TP+FN+FP+TN = (TP+TN)/전체
- 오분류율(Error rate) : 모형이 제대로 예측하지 못한 관측치
(FP+FN)/(P+N) = 1-정분류율(Accuracy)
- 재현율(Recall), 민감도(Sensitivity) : 실제 True인 관측치 중 예측치가 적중한 정도
TP/(TP+FN)
- 특이도(Specificity) : 실제값이 False인 관측치 중 예측치가 적중한 정도
TN/(FP+TN)
- 정확도(Precison) : True로 예측한 관측치 중 실제 값이 True인 정도
TP/(TP+FP)
- F1지표 : 재현율과 정확도의 조화평균
(재현율과 정확도가 반비례할 높은 가능성을 보정하기 위한 지표)
(참고 사이트)
'Certificates > ADsP' 카테고리의 다른 글
[ADsP] 결측값 처리와 이상값 검색 (0) | 2020.08.15 |
---|---|
[ADsP] 회귀분석 (0) | 2020.08.12 |
[ADsP] 앙상블 모형 (0) | 2020.08.07 |
[ADsP] 신경망 모형 (0) | 2020.08.07 |
[ADsP] 데이터 마이닝 개요 (0) | 2020.08.06 |
댓글