1. 데이터 이해
1-1. 데이터의 이해
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜
3. 데이터 분석
3-1. R 기초와 데이터 마트
3-2. 통계분석
3-3. 정형 데이터 마이닝
3-3-1. 데이터 마이닝 개요
3-3-2. 분류 분석
3-3-3. 군집 분석
3-3-4. 연관 분석
분류 분석
- 알려진 다변량 자료를 이용하여 모형을 구축하고, 이를 통해 새로운 자료에 대한 예측 및 분류 수행이 목적
- *반응변수가 범주형인 경우 → 새로운 자료에 대한 분류가 주목적
- 반응변수가 연속형인 경우 → 새로운 자료에 대한 예측이 주목적
(*반응변수 = 종속변수)
로지스틱 회귀모형
신경망 모형
의사결정나무 모형
앙상블 모형
분류 모형 평가
로지스틱 회귀모형
#로지스틱 회귀모형의 정의 및 특징
- 반응변수가 범주형인 경우 적용
- 일반화선형모형의 특별한 경우로 로짓(logit) 모형으로도 불림
- 오즈(odds)의 관점에서 해석될 수 있다는 장점을 가짐
- 새로운 설명변수가 주어질 때, 반응변수의 각 범주에 속할 확률이 얼마인지 추정
- 설명변수가 한 개인 경우 회귀계수(β)의 부호에 따라 S자(β>0) 또는 역S자(β<0) 모양을 가짐
- 표준로지스틱 분포의 누적분포함수로 성공의 확률을 추정
#로지스틱 회귀모형이 선호되는 이유
- 독립변수에 대해 어떤 가정도 필요하지 않음
- 독릭변수가 연속형 및 이산형 모두 가능하기때문에 판별분석보다 선호됨
#오즈비 (Odds ratio)
- 변수가 성공 또는 실패로 구성된다면 Odds는 한 집단이 다른 집단에 비해 성공할 승산 비에 대한 측정량
- 오즈비 = 성공률/실패욜 = Pi/(1-Pi) 단, Pi는 성공률
- 성공 가능성이 높은 경우는 1보다 크고실패 가능성이 높은 경우는 1보다 작다
#선형회귀분석 vs 로지스틱 회귀분석
구분 | 일반선형 회귀분석 | 로지스틱 회귀분석 |
종속변수 | 연속형 변수 | 이산형 변수 |
모형 탐색 방법 | 최소자승법 | 1) 최대우도법, 가중최소자승법 |
모형 검정 | F검정, t검정 | 2) 카이제곱 검정 |
1)최대우도법
- 관측값이 가정된 모집단에서 하나의 표본으로 추출된 가능성이 가장 크게 되도록 하는 회귀계수 추정방법
- 표본의 수가 클 경우에 최대우도추정법은 안정적
2) 카이제곱 검정
- 분류 조합에 따라 특정값에 유효한 차이가 발생하는 지를 검정하는 것으로 명목 척도로 측정된 두 속성이 서로 관련되어 있는지 분석하고 싶을 때 사용하는 통계분석법
- 독깁변수와 종속변수가 모두 명목척도일 경우 적합한 통계 기법
#로지스틱 회귀분석 함수 glm()
- glm(모형, data, family="binominal")
(참고 사이트)
https://logoflife.tistory.com/28
'Certificates > ADsP' 카테고리의 다른 글
[ADsP] 신경망 모형 (0) | 2020.08.07 |
---|---|
[ADsP] 데이터 마이닝 개요 (0) | 2020.08.06 |
[ADsP] 군집 분석 - SOM (Self-Organizing Maps, 자기조직화지도) (0) | 2020.08.03 |
[ADsP] 군집 분석 - 혼합 분포 군집 (EM 알고리즘) (0) | 2020.08.03 |
[ADsP] 군집 분석 - 비계층적 군집 (K-평균 군집 분석) (0) | 2020.08.03 |
댓글