[ADsP] 앙상블 모형

1. 데이터 이해
1-1. 데이터의 이해
1-2. 데이터의 가치와 미래
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

2. 데이터 분석 기획
2-1. 데이터 분석 기획의 이해
2-2. 분석 마스터 플랜

3. 데이터 분석
3-1. R 기초와 데이터 마트
3-2. 통계분석
3-3. 정형 데이터 마이닝
3-3-1. 데이터 마이닝 개요
3-3-2. 분류 분석
3-3-3. 군집 분석
3-3-4. 연관 분석

분류 분석

로지스틱 회귀모형
신경망 모형
의사결정나무 모형
앙상블 모형
분류 모형 평가

앙상블 모형

#앙상블 모형의 정의와 특징

- 여러 개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법

- 분리 분석의 과적합을 줄이기 위해 개발

- 적절한 표본추출법으로 여러 개의 훈련용 데이터를 만들고, 훈련용 데이터마다 하나의 분류기를 만들어 앙상블하는 방법

#학습의 불안정성

- 작은 병화에 의해 예측 모형이 크게 변하는 경우, 그 학습 방법은 불안정

- 가장 안정적인 방법: K-최근접이웃, 선형회귀 모형

- 가장 불안정한 방법: 의사결정 나무

출처 : https://github.com/hw79chopin/Project_Kaggle_Card_fraud_detection

#배깅(bagging)

- 원 데이터 집합으로부터 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본(붓스트랩 표본)에 대해 분류기를 생성한 후 그 결과를 앙상블하는 방법

- 붓스트랩(bootstrap): 주어진 자료에서 동일한 크기의 표보을 랜덤복원추출로 뽑은 자료

- 보팅: 여러 개의 모형으로부터 산충된 결과를 다수결에 의하여 최종 결과를 선정하는 과정

- 가지치기를 하지 않고 최대한 성장한 의사결정 나무들 사용

- 평균예측 모형을 못 구함 (훈련 자료의 모집단의 분포 모름)

- 훈련자료를 모집단으로 생각하고 평균예측모형을 구한 것과 같음 (분산을 줄이고 예측력 향상)

- 반복추출 방법으로 동일한 데이터가 여러 번 추출될 수도 있고, 어떤 데이터는 한 번도 추출되지 않을 수 있다.

#부스팅(boosting)

(1) 부스팅(boosting)의 개념 및 특징

- 예측력이 약한 모형들을 결함하여 강한 예측 모형을 만드는 방법

- 훈련오차를 빠르고 쉽게 줄임

- 성능이 배깅보다 뛰어난 경우가 많음

- 배깅과 유사하나 붓스트랩 표본을 구성하는 재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 큰 가중을 두어 표본을 추출

- 붓스트랩 표본을 추출해 분류기 생성 → 각 데이터의 확률 조정 → 다음 붓스트랩 표본 추출 → 분류기 생성 → ···

#부스팅 계열 알고리즘

(1) GBM(Gradient Boosting Algorithm)

- 예측모형의 앙상블 방법론 중 부스팅 계열에 속하는 알고리즘.

- 회귀분석 또는 분류 분석을 수행할 수 있는 예측모형

- Gradient Boosting Algorithm을 구현한 패키지: LightGBM, CatBoost, XGBoost 등

(2) LGBM(Light GBM, Light Gradient Boosting) ★

- LGBM은 GBM의 한 종류

- 예측모형의 앙상블 방법론 중 부스팅 계열에 속하는 알고리즘

- 일반적인 GBM 패키지와 다르게 LGBM은 leaf wise(리프 중심 트리 분할)방식을 사용한다.

- LGBM은 균형적으로 트리를 분할하지 않는 대신 최대 손실값(max delta loss)을 갖는 트리 노드를 계속 분할

(3) XGBoost vs. LGBM

XGBoost	LGBM
- XGboost는 학습 시간이 오래 걸린다. - Grid search를 통해 최적의 파라미터를 탐색한다면 학습 시간의 효율을 고려해야 한다.	- LGBM은 XGBoost보다 학습 시간이 덜 걸리며 메모리 사용도 작다는 장점이 있다. - LGBM은 데이터셋의 과적합을 조심해야 하는데, 1만개 이하의 데이터셋은 과적합 위험이 있다.

#랜덤포레스트(random forest)

- 배깅에 랜덤 과정을 추가한 방법

- 분삭이 큰 의사결정나무를 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성 후 이를 선형 결함하여 최종 학습기를 만드는 방법

- 붓스트랩 샘플을 추출하고 트리를 만들어가는 과정은 배깅과 유사

- 예측변수들을 임의로 추출하고, 추출된 변수 내에서 최적의 분할을 만들어나감

(배깅 : 각 노드마다 모든 예측변수 안에서 최적의 분할을 선택)

- 변수 제거 없이 실행되어 정확도가 좋음

- 해석이 어렵지만 예측력이 높음 (입력 변수가 많을구록 배깅, 부스팅보다 좋음)

- 별도의 검증용 데이터를 사용하지 않더라도, 붓스트랩 샘플과정에서 제외된 자료를 통해 검증을 실시할 수 있다.

- Category 변수의 value 종류가 32개까지됨

- randomForest 패키지, 랜덤한 forest에 많은 트리 생성

(참고 사이트)

https://logoflife.tistory.com/28

https://kim-mj.tistory.com/144

https://github.com/hw79chopin/Project_Kaggle_Card_fraud_detection

'Certificates > ADsP' 카테고리의 다른 글

[ADsP] 회귀분석 (0)	2020.08.12
[ADsP] 분류 모형 평가 (0)	2020.08.10
[ADsP] 신경망 모형 (0)	2020.08.07
[ADsP] 데이터 마이닝 개요 (0)	2020.08.06
[ADsP] 분류 분석 - 로지스틱 회귀모형 (0)	2020.08.06

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

Air

[ADsP] 앙상블 모형

분류 분석

앙상블 모형

'Certificates > ADsP' 카테고리의 다른 글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[ADsP] 앙상블 모형

분류 분석

앙상블 모형

'Certificates > ADsP' 카테고리의 다른 글

관련글

댓글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역