본문 바로가기
Certificates/ADsP

[ADsP] 결측값 처리와 이상값 검색

by Air’s Big Data 2020. 8. 15.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 

  3-1-1. R 기초

  3-1-2. 데이터 마트 

  3-1-3. 결측값 처리와 이상값 검색 

3-2. 통계분석 
3-3. 정형 데이터 마이닝 

 

 

 

결측값 처리와 이상값 검색 

#결측치 인식

 - 결측값:  표기되지 않은 값, 존재하지 않는 값

 - 결측값은 NA, 9999999, ' '(공백), Unknown, Not Answer 등으로 표현됨.

 - 결측값 자체에 의미가 있는 경우 : 아주 부자나 가난한 사람은 자신의 정보를 잘 채워넣지 않는다.

 

#결측치 처리 - 단순 대치법 (Single Imputation) 

 (1) Compeletes analysis

 (2) 평균대치법 (Mean Imputation) 

 (3) 단순확률 대치법 (Single Stochastic Imputation)

  - 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법

  - Hot-deck, nearest neighbor 방법

 

#결측치 처리 - 1. 단순 대치법 (Single Imputation) 

 ⑴ Completes analysis 

  - 결측값이 존재하는 레코드를 삭제

 ⑵ 평균대치법 (Mean Imputation)

  - 관측 또는 실험을 통해 얻어진 데이터의 평균으로 대치

  - 비조건부 평균 대치법 : 관측데이터의 평균으로 대치

  - 조건부 평균 대치법 : 회귀분석을 활용한 대치법

 

 ⑶ 단순확률 대치법 (Single Stochastic Imputation)

 

#결측치 처리 - 2. 다중 대치법 (Multiple Imputation) 

 - 3단계 순서 : ​대치 → 분석 → 결합

 - 단순대치법을 한 번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법

 - Amelia-time series cross sectional data set에서 bootstrapping based algorithm을 활용한 다중대치법

 

#상자그림(Boxplot)

 - 상자그림(Boxplot) : 중앙값, 제1사분위수, 제3사분위수 등의 기술통계량을 상자 모양으로 요약해서 나타낸 그래프

   0사분위수(Q0): 최소값

   1사분위수(Q1): 최소값~25%번째 값

   2사분위수(Q2): 중앙값

   3사분위수(Q3): 중앙값~최대값

   4사분위수(Q4): 최대값

 

출처 : https://m.blog.naver.com/running_p/90178707051

 

 

#이상치 인식

 (1) ESD (Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값 (각 0.15%)

 (2) 기하평균 - 2.5 x 표준편차 < data < 기하평균 + 2.5 x 표준편차

 (3) 사분위수 이용하여 제거하기 (상자 그림의 outer fence 밖의 값 제거)

   - 이상값 정의 : Q1 - 1.5 (Q3 - Q1) < data < Q3 + 1.5(Q3 - Q1) 를 벗어나는 데이터

   - 분포는 확률분포여야 한다. 

   - IQR = Q3 - Q1

   - Q1 - 1.5 X IQR보다 작은 관측값은 이상치

   - Q3 + 1.5 X IQR보다 큰 관측지는 이상치

   - 이상치는 자료의 상한값 혹은 하한값으로 대체

 

 

#이상치 처리

 ⑴ 극단값 절단(trimming) 방법

  - 기하평균을 이용한 제거 → geo_mean

  - 하단, 상단 % 이용한 제거 → 10% 절단 (상하위 5%에 해당되는 데이터 제거

⑵ 극단값 조정(winsorizing) 방법

 - 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용

 

 

 

 

(참고 사이트)

https://m.blog.naver.com/PostView.nhn?blogId=nknn2004&logNo=221733076737&categoryNo=0&proxyReferer=https:%2F%2Fwww.google.com%2F

 

'Certificates > ADsP' 카테고리의 다른 글

[ADsP] 통계 분석 개요  (0) 2020.08.17
[ADsP] 연관 분석  (0) 2020.08.15
[ADsP] 회귀분석  (0) 2020.08.12
[ADsP] 분류 모형 평가  (0) 2020.08.10
[ADsP] 앙상블 모형  (0) 2020.08.07

댓글