본문 바로가기
Certificates/ADsP

[ADsP] 주성분 분석

by Air’s Big Data 2020. 8. 22.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 

3-2. 통계분석 

  3-2-1. 통계학 개론

  3-2-2. 기초 통계분석

  3-2-3. 다변량 분석

  3-2-4. 시계열 에측

  3-2-5. 다차원 척도법

  3-2-6. 주성분 분석

3-3. 정형 데이터 마이닝 

 

 

#주성분분석의 정의

 - 여러 변수들의 변향을 주성분이라는 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법이다.

- 첫 번째 주성분으로 전체 변도을 가장 많이 설명할 수 있도록하고, 두 번째 주성분으로는 첫 번째 주성분과는 상관성이 없어서(낮아서) 첫 번째 주성분이 설명하지 못하는 나머지 변동을 정보의 손실 없이 가장 많이 설명할 수 있도록 변수들의 선형 조합을 만든다.

 

 

#주성분분석의 목적

- 여러 변수들 간에 내재하는 상관관계, 연관성을 이용해 소수의 주성분으로 차원을 축소함으로써 데이터를 이해하기 쉽고 관리하기 쉽게 해준다.

- 다중공선성이 존재하는 경우, 상관성이 없는 (적은) 주성분으로 변수들을 축소하여 모형 개발에 활용된다. 

- 회귀분석이나 의사결정나무 등의 모형 개발 시 입력변수들 간의 상관관계가 높은 다중공선성이 존재할 경우 모형이 잘못 만들어져 문제가 생긴다. 

- 연관성이 높은 변수를 주성분분석을 통해 차원을 축소한 후에 군집분석을 수행하면 군집화 결과와 연산 속도를 개선할 수 있다.

- 기계에서 나오는 다수의 센서데이터를 주성분분석으로 차원을 축소하는 후 시계열 분포나 추세의 변화를 분석하면 기계의 고장 징후를 사전에 파악하는데 활용하기도 한다.

 

 

#주성분분석  vs. 요인 분석

- 요인분석: 등간척도(혹은 비율척도)로 측정한 두 개 이상의 변수들에 잠재되어 있는 공통인자를 찾아내는 기법이다.

구분 주성분분석 요인분석
공통점 모두 데이터를 축소하는데 활용된다. 원래 데이터를 활용해서 몇 개의 새로운 변수들을 만들 수 있다.
생성된 변수의 수 제 1주성분, 제 2주성분, 제 3주성분 정도로 활용된다. (대개 4개 이상은 넘지 않음) 몇 개라고 지정 없이 만들 수 있다.
생성된 변수의 이름 제 1주성분, 제 2주성분 등으로 표현된다. 분석자가 요인의 이름을 명명한다. 
생성된 변수들 간의 관계 제1주성분이 가장 중요하고 그 다음 제2주성분이 중요하게 취급된다. 새 변수들은 기본적으로 대등한 관계를 갖고 '어떤 것이 더 중요하다' 는 없다. 단, 분류/예측에 그 다음 단계로 사용된다면 그때 중요성의 의미가 부여된다.
분석 방법의 의미 목표 변수를 고려하여 목표 변수를 잘 예측/분류하기 위하여 원래 변수들의 선형 결합으로 이루어진 몇 개의 주성분(변수)들을 찾아내게 된다. 목표변수를 고려하지 않고 그냥 데이터가 주어지면 변수들을 비슷한 성격들로 묶어서 새로운 (잠재) 변수들 만든다.

 

#주성분의 선택법

- 주성분분석의 결과에서 누적기여율이 85% 이상이면 주성분의 수로 결정할 수 있다.

- scree plot을 활용하여 고유값이 수평이 유지하기 전 단계로 주성분의 수를 선택한다.

 

 

#주성분분석의 실행 예시

(1) Rotation : 실제로 원래의 독립변수에 곱해서 주성분을 만들 계수들을 나타낸다. 예를들어 PC1을 만들기 위해선 population에 −0.098, white에 0.056, ... , poverty에 −0.187 곱한 뒤 모두 더해서 만들어진다. 또한 데이터에 따라선 어떤 주성분이 어떤 변수에 대한 정보를 많이 가지고 있는지 한 눈에 확인할 수 있는 지표가 되기도 한다.

 

(2) Importance of components : 말그대로 각 주성분의 중요도를 나타낸다. Proportion of Variance가 높을수록 데이터의 많은 부분을 설명하고 그만큼 중요한 주성분이라는 의미가 된다. 

 

(참고 사이트)

https://dlsdn73.tistory.com/1153

https://freshrimpsushi.tistory.com/814

'Certificates > ADsP' 카테고리의 다른 글

[ADsP] 데이터마트  (0) 2020.08.23
[ADsP] R 프로그래밍 기초  (0) 2020.08.23
[ADsP] 다차원 척도법  (0) 2020.08.22
[ADsP] 분석 마스터 플랜  (1) 2020.08.21
[ADsP] 데이터 분석 기획의 이해  (0) 2020.08.21

댓글