1. 데이터 이해
1-1. 데이터의 이해
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜
3. 데이터 분석
3-1. R 기초와 데이터 마트
3-1-1. R 기초
3-1-2. 데이터 마트
3-1-3. 결측값 처리와 이상값 검색
3-2. 통계분석
3-3. 정형 데이터 마이닝
결측값 처리와 이상값 검색
#결측치 인식
- 결측값: 표기되지 않은 값, 존재하지 않는 값
- 결측값은 NA, 9999999, ' '(공백), Unknown, Not Answer 등으로 표현됨.
- 결측값 자체에 의미가 있는 경우 : 아주 부자나 가난한 사람은 자신의 정보를 잘 채워넣지 않는다.
#결측치 처리 - 단순 대치법 (Single Imputation)
(1) Compeletes analysis
(2) 평균대치법 (Mean Imputation)
(3) 단순확률 대치법 (Single Stochastic Imputation)
- 평균대치법에서 추정량 표준 오차의 과소 추정문제를 보완하고자 고안된 방법
- Hot-deck, nearest neighbor 방법
#결측치 처리 - 1. 단순 대치법 (Single Imputation)
⑴ Completes analysis
- 결측값이 존재하는 레코드를 삭제
⑵ 평균대치법 (Mean Imputation)
- 관측 또는 실험을 통해 얻어진 데이터의 평균으로 대치
- 비조건부 평균 대치법 : 관측데이터의 평균으로 대치
- 조건부 평균 대치법 : 회귀분석을 활용한 대치법
⑶ 단순확률 대치법 (Single Stochastic Imputation)
#결측치 처리 - 2. 다중 대치법 (Multiple Imputation)
- 3단계 순서 : 대치 → 분석 → 결합
- 단순대치법을 한 번하지 않고 m번의 대치를 통해 m개의 가상적 완전 자료를 만드는 방법
- Amelia-time series cross sectional data set에서 bootstrapping based algorithm을 활용한 다중대치법
#상자그림(Boxplot) ★
- 상자그림(Boxplot) : 중앙값, 제1사분위수, 제3사분위수 등의 기술통계량을 상자 모양으로 요약해서 나타낸 그래프
0사분위수(Q0): 최소값
1사분위수(Q1): 최소값~25%번째 값
2사분위수(Q2): 중앙값
3사분위수(Q3): 중앙값~최대값
4사분위수(Q4): 최대값
#이상치 인식
(1) ESD (Extreme Studentized Deviation) : 평균으로부터 3 표준편차 떨어진 값 (각 0.15%)
(2) 기하평균 - 2.5 x 표준편차 < data < 기하평균 + 2.5 x 표준편차
(3) 사분위수 이용하여 제거하기 (상자 그림의 outer fence 밖의 값 제거) ★
- 이상값 정의 : Q1 - 1.5 (Q3 - Q1) < data < Q3 + 1.5(Q3 - Q1) 를 벗어나는 데이터
- 분포는 확률분포여야 한다.
- IQR = Q3 - Q1
- Q1 - 1.5 X IQR보다 작은 관측값은 이상치
- Q3 + 1.5 X IQR보다 큰 관측지는 이상치
- 이상치는 자료의 상한값 혹은 하한값으로 대체
#이상치 처리
⑴ 극단값 절단(trimming) 방법
- 기하평균을 이용한 제거 → geo_mean
- 하단, 상단 % 이용한 제거 → 10% 절단 (상하위 5%에 해당되는 데이터 제거
⑵ 극단값 조정(winsorizing) 방법
- 상한값과 하한값을 벗어나는 값들을 하한, 상한값으로 바꾸어 활용
(참고 사이트)
'Certificates > ADsP' 카테고리의 다른 글
[ADsP] 통계 분석 개요 (0) | 2020.08.17 |
---|---|
[ADsP] 연관 분석 (0) | 2020.08.15 |
[ADsP] 회귀분석 (0) | 2020.08.12 |
[ADsP] 분류 모형 평가 (0) | 2020.08.10 |
[ADsP] 앙상블 모형 (0) | 2020.08.07 |
댓글