본문 바로가기
Certificates/ADsP

[ADsP] 기초 통계분석 - 기술통계, 회귀분석

by Air’s Big Data 2020. 8. 18.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 

3-2. 통계분석 

  3-2-1. 통계학 개론

  3-2-2. 기초 통계분석

  3-2-3. 다변량 분석

  3-2-4. 시계열 에측

3-3. 정형 데이터 마이닝 

 

 

기초 통계분석

#기술 통계

 - 자료를 요약하는 기초적 통계

 - 분석에 앞서 데이터의 통계적 수치를 계산해봄으로써, 데이터에 대한 대략적인 이해와 분석의 통찰력을 얻기에 유리하다.

 - R에서는 head(data), summary(data), mean(data$column), median(data$column), var(data$column), max(data$column), min(data$column) 등의 함수로 기초통계량을 구해 확인한다.

 

 

#회귀 분석의 정의와 변수의 종류

 - 회귀분석이란 하나나 그 이상의 변수들이 또 다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법이다.

 - 반응변수(종속변수) : 영향을 받는 변수, 보통 y로 표기

 - 설명변수(독립변수) : 영향을 주는 변수, 보통 x, x1, x2 등으로 표기

 

 

#회귀분석 분류

 (1) 단순회귀분석

  - 회귀모형 중에서 가장 단순한 모형

  - 한 개의 독립변수와 하나의 종속변수로 이루어짐

  - 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값으로 구함

 (2) 다중회귀분석

  - 단순회귀모형이 종속변수의 변동을 설명하는데 충분하지 않다는 점을 보완 

  - 두 개 이상의 독립변수를 사용하여 종속변수의 변화를 설명

 

 

#회귀 모형의 평가

 (1) 모형이 통계적으로 유의미한가?

  - F-통계량의 p-값이 0.05보다 작은지 확인

 (2) 회귀계수들이 유의미한가?  

  - 회귀계수들의 p-값이 0.05보다 작은지 확인

 (3) 모형이 얼마나 설명력을 갖는가?

  - 결정계수를 확인

 

 

#R에서의 회귀분석 수행 예제

(1) 단순선형회귀분석

> lm ( y~x, data=데이터명 )
                            
Call : 
lm(formula = y ~ x,   data = 데이터명)
Coefficients :
(Intercept)           x
     2.131         3.018
 
 #회귀방정식 y = 2.131 + 3.018x 로 추정

(2) 다중선형회귀분석

> lm ( y~u+v+w, data=데이터명 )

Call : 
lm(formula = y ~ u + v + w,   data = 데이터명)
Coefficients :
(Intercept)           u             v            w
      3.203       0.1482       1.9752      -3.0081
      
#회귀방정식 y = 3.203 + 0.1482u + 1.9752v - 3.0081w 로 추정

 

(3) 모형의 적절성 여부 확인

> m <- lm ( y~u+v+w, data = 데이터명 )
> summary(m)

 - summary 함수를 통해 F-통계량의 p-값, 결정계수, 회귀계수의 p-값을 확인하여 모형의 적절성 여부를 판단한다.

 - 추가로 plot(m) 함수를 통해 회귀식의 잔차도를 확인하여 선형성을 파악한다.

 

 

#모형의 적절성 여부 확인 예시 

(1) 실행 결과 결과 1

 - 통계적으로 유의미한가 ? F통계량의 p값 = 1.564e-14 <0.05 ; 유의
 - 회귀계수들이 유의미한가? t통계량과 p값이 모두 0.01보다 작음 ; 유의 -> ***으로 표시된 결과
 -  모형의 설명력은 얼마나? 결정계수 = 1 ; 설명력 높다

 

(2) 실행 결과 결과 2

 - 통계적으로 유의미한가 ? F통계량의 p값 = 5.852e-12 <0.05 ; 유의
 - 회귀계수들이 유의미한가? t통계량과 p값이 모두 0.05보다 크다 ; 유의하지 않다.
 - 모형의 설명력은 얼마나? 결정계수 = 0.6673 ; 설명력 보통

 

 

 

#최적회귀방정식 선택 (설명변수의 선택)

  - 반응변수 y에 영향을 미칠 수 있는 가능한 모든 설명변수를 가지고 있을 때, y의 변화를 설명하기 위한 설명변수를 어떻게 선택할지 고려해야 한다.

 - 변수 선택에는 두 가지 원칙을 따른다. (이율배반적 원칙으로 상황에 적절한 변수를 선택해야 함)

- y에 영향을 미칠 수 있는 모든 설명변수 x들을 참여시킨다.

- x가 많아질수록 관리가 힘들기에, 가능한 범위 내에서 적은 수의 설명변수를 포함시킨다.

 

 

#모든 가능한 조합의 회귀분석

 - 모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 가장 적합한 회귀모형을 선택

 

 

#단계적 변수선택

 (1) 전진선택법

  - 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가

  - 후보가 되는 설명변수 중 가장 설명을 잘하는 변수가 유의하지 않을 때의 모형을 선택

(2) 후진제거법

  -독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거

  - 더 이상 유의하지 않은 변수가 없을 때의 모형을 선택

(3) 단계별방법

  - 전진선택법에 의해 변수를 추가하면서, 기존 변수의 중요도가 약화되면 제거하는 등 단계별로 추가 또는 제거

  - 더 이상 추가 또는 제거되는 변수가 없을 때의 모형을 선택

 

 

#R에서의 단계적 변수선택 예제

(1) 전진선택법

> step(lm(y~1, dfrm), scope=list(lower=~1,upper=~u+v+w), direction="forward")

(2) 후진제거법

step(lm(y~u+v+w, dfrm), direction="backward")

(3) 단계별방법

step(lm(y~1, dfrm), scope=list(lower=~1, upper=~u+v+w), direction="both")

 

 

(참고 사이트)

https://logoflife.tistory.com/26

https://m.blog.naver.com/PostView.nhn?blogId=jdhpuppy&logNo=221345226370&proxyReferer=https:%2F%2Fwww.google.com%2F

'Certificates > ADsP' 카테고리의 다른 글

[ADsP] 시계열 에측  (0) 2020.08.19
[ADsP] 다변량 분석  (0) 2020.08.19
[ADsP] 모수 검정  (0) 2020.08.17
[ADsP] 추정과 가설검정  (0) 2020.08.17
[ADsP] 확률 및 확률분포  (0) 2020.08.17

댓글