본문 바로가기
Certificates/ADsP

[ADsP] 분류 분석 - 로지스틱 회귀모형

by Air’s Big Data 2020. 8. 6.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 
3-2. 통계분석 
3-3. 정형 데이터 마이닝 
  3-3-1. 데이터 마이닝 개요 
  3-3-2. 분류 분석 
  3-3-3. 군집 분석 
  3-3-4. 연관 분석

 

 

분류 분석

- 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류 수행이 목적

- *반응변수가 범주형인 경우 → 새로운 자료에 대한 분류가 주목적

- 반응변수가 연속형인 경우 → 새로운 자료에 대한 예측이 주목적

(*반응변수 = 종속변수)

 

로지스틱 회귀모형
신경망 모형
의사결정나무 모형 
앙상블 모형
분류 모형 평가

 

로지스틱 회귀모형

#로지스틱 회귀모형의 정의 및 특징

 - 반응변수가 범주형인 경우 적용

 - 일반화선형모형의 특별한 경우로 로짓(logit) 모형으로도 불림

 - 오즈(odds)의 관점에서 해석될 수 있다는 장점을 가짐

 - 새로운 설명변수가 주어질 때, 반응변수의 각 범주에 속할 확률이 얼마인지 추정

 - 설명변수가 한 개인 경우 회귀계수(β)의 부호에 따라 S자(β>0) 또는 역S자(β<0) 모양을 가짐

 - 표준로지스틱 분포의 누적분포함수로 성공의 확률을 추정

 

 

#로지스틱 회귀모형이 선호되는 이유

- 독립변수에 대해 어떤 가정도 필요하지 않음

- 독릭변수가 연속형 및 이산형 모두 가능하기때문에 판별분석보다 선호됨

 

 

#오즈비 (Odds ratio)

- 변수가 성공 또는 실패로 구성된다면 Odds는 한 집단이 다른 집단에 비해 성공할 승산 비에 대한 측정량

- 오즈비 = 성공률/실패욜 = Pi/(1-Pi) 단, Pi는 성공률

- 성공 가능성이 높은 경우는 1보다 크고실패 가능성이 높은 경우는 1보다 작다

 

 

#선형회귀분석 vs 로지스틱 회귀분석

구분 일반선형 회귀분석 로지스틱 회귀분석
종속변수 연속형 변수 이산형 변수
모형 탐색 방법 최소자승법 1) 최대우도법, 가중최소자승법
모형 검정 F검정, t검정 2) 카이제곱 검정

1)최대우도법

- 관측값이 가정된 모집단에서 하나의 표본으로 추출된 가능성이 가장 크게 되도록 하는 회귀계수 추정방법

 - 표본의 수가 클 경우에 최대우도추정법은 안정적

2) 카이제곱 검정

 - 분류 조합에 따라 특정값에 유효한 차이가 발생하는 지를 검정하는 것으로 명목 척도로 측정된 두 속성이 서로 관련되어 있는지 분석하고 싶을 때 사용하는 통계분석법

 - 독깁변수와 종속변수가 모두 명목척도일 경우 적합한 통계 기법

 

 

#로지스틱 회귀분석 함수 glm()

- glm(모형, data, family="binominal")

 

 

(참고 사이트)

https://logoflife.tistory.com/28

http://dorimriverst000.blogspot.com/2018/07/1.html

https://nittaku.tistory.com/478

댓글