1. 데이터 이해
1-1. 데이터의 이해
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜
3. 데이터 분석
3-1. R 기초와 데이터 마트
3-2. 통계분석
3-2-1. 통계학 개론
3-2-2. 기초 통계분석
3-2-3. 다변량 분석
3-2-4. 시계열 에측
3-3. 정형 데이터 마이닝
기초 통계분석
#기술 통계
- 자료를 요약하는 기초적 통계
- 분석에 앞서 데이터의 통계적 수치를 계산해봄으로써, 데이터에 대한 대략적인 이해와 분석의 통찰력을 얻기에 유리하다.
- R에서는 head(data), summary(data), mean(data$column), median(data$column), var(data$column), max(data$column), min(data$column) 등의 함수로 기초통계량을 구해 확인한다.
#회귀 분석의 정의와 변수의 종류
- 회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법이다.
- 반응변수(종속변수) : 영향을 받는 변수, 보통 y로 표기
- 설명변수(독립변수) : 영향을 주는 변수, 보통 x, x1, x2 등으로 표기
#회귀분석 분류
(1) 단순회귀분석
- 회귀모형 중에서 가장 단순한 모형
- 한 개의 독립변수와 하나의 종속변수로 이루어짐
- 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값으로 구함
(2) 다중회귀분석
- 단순회귀모형이 종속변수의 변동을 설명하는데 충분하지 않다는 점을 보완
- 두 개 이상의 독립변수를 사용하여 종속변수의 변화를 설명
#회귀 모형의 평가
(1) 모형이 통계적으로 유의미한가?
- F-통계량의 p-값이 0.05보다 작은지 확인
(2) 회귀계수들이 유의미한가?
- 회귀계수들의 p-값이 0.05보다 작은지 확인
(3) 모형이 얼마나 설명력을 갖는가?
- 결정계수를 확인
#R에서의 회귀분석 수행 예제
(1) 단순선형회귀분석
> lm ( y~x, data=데이터명 )
Call :
lm(formula = y ~ x, data = 데이터명)
Coefficients :
(Intercept) x
2.131 3.018
#회귀방정식 y = 2.131 + 3.018x 로 추정
(2) 다중선형회귀분석
> lm ( y~u+v+w, data=데이터명 )
Call :
lm(formula = y ~ u + v + w, data = 데이터명)
Coefficients :
(Intercept) u v w
3.203 0.1482 1.9752 -3.0081
#회귀방정식 y = 3.203 + 0.1482u + 1.9752v - 3.0081w 로 추정
(3) 모형의 적절성 여부 확인
> m <- lm ( y~u+v+w, data = 데이터명 )
> summary(m)
- summary 함수를 통해 F-통계량의 p-값, 결정계수, 회귀계수의 p-값을 확인하여 모형의 적절성 여부를 판단한다.
- 추가로 plot(m) 함수를 통해 회귀식의 잔차도를 확인하여 선형성을 파악한다.
#모형의 적절성 여부 확인 예시
(1) 실행 결과 결과 1
- 통계적으로 유의미한가 ? F통계량의 p값 = 1.564e-14 <0.05 ; 유의
- 회귀계수들이 유의미한가? t통계량과 p값이 모두 0.01보다 작음 ; 유의 -> ***으로 표시된 결과
- 모형의 설명력은 얼마나? 결정계수 = 1 ; 설명력 높다
(2) 실행 결과 결과 2
- 통계적으로 유의미한가 ? F통계량의 p값 = 5.852e-12 <0.05 ; 유의
- 회귀계수들이 유의미한가? t통계량과 p값이 모두 0.05보다 크다 ; 유의하지 않다.
- 모형의 설명력은 얼마나? 결정계수 = 0.6673 ; 설명력 보통
#최적회귀방정식 선택 (설명변수의 선택)
- 반응변수 y에 영향을 미칠 수 있는 가능한 모든 설명변수를 가지고 있을 때, y의 변화를 설명하기 위한 설명변수를 어떻게 선택할지 고려해야 한다.
- 변수 선택에는 두 가지 원칙을 따른다. (이율배반적 원칙으로 상황에 적절한 변수를 선택해야 함)
- y에 영향을 미칠 수 있는 모든 설명변수 x들을 참여시킨다.
- x가 많아질수록 관리가 힘들기에, 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다.
#모든 가능한 조합의 회귀분석
- 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 가장 적합한 회귀모형을 선택
#단계적 변수선택
(1) 전진선택법
- 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
- 후보가 되는 설명변수 중 가장 설명을 잘하는 변수가 유의하지 않을 때의 모형을 선택
(2) 후진제거법
-독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
- 더 이상 유의하지 않은 변수가 없을 때의 모형을 선택
(3) 단계별방법
- 전진선택법에 의해 변수를 추가하면서, 기존 변수의 중요도가 약화되면 제거하는 등 단계별로 추가 또는 제거
- 더 이상 추가 또는 제거되는 변수가 없을 때의 모형을 선택
#R에서의 단계적 변수선택 예제
(1) 전진선택법
> step(lm(y~1, dfrm), scope=list(lower=~1,upper=~u+v+w), direction="forward")
(2) 후진제거법
step(lm(y~u+v+w, dfrm), direction="backward")
(3) 단계별방법
step(lm(y~1, dfrm), scope=list(lower=~1, upper=~u+v+w), direction="both")
(참고 사이트)
'Certificates > ADsP' 카테고리의 다른 글
[ADsP] 시계열 에측 (0) | 2020.08.19 |
---|---|
[ADsP] 다변량 분석 (0) | 2020.08.19 |
[ADsP] 모수 검정 (0) | 2020.08.17 |
[ADsP] 추정과 가설검정 (0) | 2020.08.17 |
[ADsP] 확률 및 확률분포 (0) | 2020.08.17 |
댓글