본문 바로가기
Certificates/ADsP

[ADsP] 회귀분석

by Air’s Big Data 2020. 8. 12.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 
3-2. 통계분석 

  3-2-1. 통계학 개론 

  3-2-2. 기초 통계 분석 

  3-2-3. 다변량 분석 

  3-2-4. 시계열 예측 

  3-2-5. 주성분 분석 

3-3. 정형 데이터 마이닝 

 

 

회귀분석(Regression Analysis)

 

(위키백과)

#회귀 분석의 정의 및 목적

- 변수와 변수 사이의 관계를 알아보기 위한 통계적 방법

- 독립변수의 값에 의하여 종속변수의 값을 예측하기 위함

       독립변수(independent variable) : 종속변수에 영향을 미치는 변수

       종속변수(dependent variable) : 분석의 대상이 되는 변수

 

 

#회귀 분석의 종류

 (1) 독립변수의 수에 의한 구분

    1 - 단순 회귀 분석

    2 이상 - 다중 회귀 분석

 (2) 독립변수 척도에 의한 구분

    등간, 비율 - 일반 회귀

    명목, 서열 - 더미 회귀

 (3) 독립, 종속 변수의 관계에 의한 구분

    선형회귀

    비선형회귀

 

 

#회귀모형에 대한 가정

- 선형성 : 독립변수의 변화에 따라 종속변수도 변화하는 선형인 모형

- 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않음

- 등분산성 : 오차항들의 분포는 동일한 분산을 가짐

- 비상관성 : 잔차들끼리 상관이 없어야 

- 정상성 : 잔차항이 정규분포를 이뤄야 

 

 

#회귀분석 모형에서 확인할 사항

 - 모형이 통계적으로 유의미한가? F분포값과 유의확률(p-value) 확인

 - 회귀계수들이 유의미한가? 회귀계수의 t값과 유의확률(p-value) 확인

 - 모형이 얼마나 설명력을 갖는가? 결정 계수를 확인

 - 모형이 데이터를  적합하고 있는가? 잔차통계량을 확인하고 회귀진단

 

 

#다중공선성(Multicolinearity)

 - 모형의 일부 예측변수가 다른 예측변수와 상관되어 있을  발생하는 조건이다.

 - 중대한 다중공선성은 회귀계수의 분산을 증가시켜 불안정하고 해석하기 어렵게 만들기 때문에 문제가 된다.

 - R에서는 vif 함수를 이용해 VIF값을 구할  있으며, 보통 VIF값이 4 넘으면 다중공선성이 존재한다고 본다.

 - 해결방안 : 높은 상관 관계가 있는 예측변수를 모형에서 제거한다.

 

 

#최적 회귀방정식의 선택 : 단계별 변수선택(Stepwise Variable Selection

 - 후진 제거법(Backward Elimination) : 기준 통계치에 가장 도움이 되지 않는 변수를 하나씩 제거하는 방법

 - 전진 선택법(Forward Selection) : 기준 통계치를 가장 많이 개선시키는 변수를 차례로 추가하는 방법

 - 단계별 선택법(Stepwise Selection) : 모든 변수가 포함된 모델에서 기준 통계치에 도움되지 않는 변수를 삭제하거나, 모델에 빠진 변수중 통계치를 개선시키는 변수를 추가하는 방법

 

 

#회귀모델에서 변수를 선택하는 판단 기준

 - Cp(멜로우스 통계량), AIC(아케이케), BIC(슈바르츠 통계량) 기준으로  통계량이 작을 수록 좋다.

 

 

#정규화 선형회귀(Regularized Linear Regression)

 - 선형회귀계수에 대한 제약 조건을 추가하여 모형이 과도하게 최적화되는,  과적합(overfitting) 막는 방법

 

 

#딥러닝에서 과적합 문제를 해결하는 방법

- 더 많은 데이터를 사용한다.

- Cross Validation

- 정규화(Regularization) - Ridge 회귀모형, Lasso 회귀모형, Elastic Net 회귀 모형 

구분 랏지회귀 라소회귀  엘라스틱넷
제약식 L2norm L1norm L1 + L2norm
변수선택 불가능 가능 가능
장점 변수 간 상관관계가 높아도 조은 성능 변수 간 상관관계가 높으면 성능이 떨어짐 변수 간 상관관계를 반영한 정규화

 

#Lasso 회귀분석

- 회귀분석에서 사용하는 최소제곱법에 제약조건을 부여하는 방법이다.

- 회귀계수의 절대값이클수록 패널티를 부여한다. 

- 정규화 선형회귀 ( Regularized Linear Regression ) 의 하나로 선형회귀계수에 대한 제약 조건을 추가하여 과적합을 막는 방법 중 하나이다. 

- 람다는 기존의 잔차 제곱합과 추가적으로 제약 조건의 비중을 조절하기 위한 hyper parameter 이다.  ( 람다가 크면 정규화 정도가 커지고 가중치의 값들이 작아진다 = 과소적합의 문제가 발생 )

- 제약조검 t는 회귀계수 값에 대해 축소 정도를 조절할 수가 있다.

- MSE(평균제곱오차, mean squared error)와 Penalty항의 합이 최소가 되게하는 파라메터를 찾는 것이 목적이다.

- Lasso regression은 L1 norm을 사용해서 패널티를 주는 방식이다.

- L1 Regularizaiton 은 기존 Cost function 뒤에 L1 항을 추가해준 것이다.

 

 

#R에서 회귀분석 실행 결과

 

1) 다중회귀 분석

m<-lm(y~u+v+w,dfrm1)
summary(m)

Call: lm(formula = y ~ u + v + w, data = dfrm1) # 회귀모형 출력
Residuals: # 잔차의 분포 정보
       Min       1Q        Median     3Q          Max
-0.188562 -0.058632 -0.002013 0.080024 0.143757

Coefficients: # 회귀계수라고(coefficients)-> 비표준화 회귀계수
                Estimate Std.Error    t value             Pr(>|t|)
(Intercept) 3.041653  0.264808   11.486   0.00002615200404717 ***
u            0.123173  0.012841   9.592     0.00007339511595238 ***
v            1.989017  0.016586   119.923  0.00000000002266819 ***
w          -2.997816  0.005421   -552.981 0.00000000000000236 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 회귀계수 유의성 검정->t통계량 때 p값이 모두 <0.05 귀무가설 기각 회귀계수 모두 유의미함
Residual standard error: 0.1303 on 6 degrees of freedom
Multiple R-squared: 0.799 Adjusted R-squared: 0.855 
F-statistic: 1.038e+05 on 3 and 6 DF, p-value: 0.00000000000001564

 - 다중 회귀분석을 한 것으로 종속변수 y 대해 u,v 비표준화(estimate)계수 양의 관계, w 는 음의관계이다.

 -  *** 표시는 모든 회귀계수가 유의미 하다는 뜻.

 - 모형의 통계적 유의성 검정 -> F 통계량 값, p값(0.00000000000001564)<0.05

 - 귀무가설 : 회귀모형은 의미가 없다-> 기각

 - 결정계수(R^2)=종속변수의 분산 중에서 독립변수의 의해 설명된 분산 비율=85.5%

 - R^2값은 독립변수의 수가 많아질수록 커지는 특성 -> 수정된 R^2을 사용함.

 - 결정계수(R^2)는 모형의 설명력을 판단. ( 결정 계수는 총변동과 설명되는 편차에 대한 변동 비율이다)

 - 결정계수(R^2)는 제곱이기 때문에 0~1 범위를 갖는다.

 

 

 

(참고 사이트)

http://dorimriverst000.blogspot.com/2018/07/adsp-iii_22.html

https://m.blog.naver.com/PostView.nhn?blogId=kimdansay&logNo=221404554844&proxyReferer=https:%2F%2Fwww.google.com%2F

https://dailyheumsi.tistory.com/57

https://acdongpgm.tistory.com/86

'Certificates > ADsP' 카테고리의 다른 글

[ADsP] 연관 분석  (0) 2020.08.15
[ADsP] 결측값 처리와 이상값 검색  (0) 2020.08.15
[ADsP] 분류 모형 평가  (0) 2020.08.10
[ADsP] 앙상블 모형  (0) 2020.08.07
[ADsP] 신경망 모형  (0) 2020.08.07

댓글