본문 바로가기
Certificates/ADsP

[ADsP] 다변량 분석

by Air’s Big Data 2020. 8. 19.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 

3-2. 통계분석 

  3-2-1. 통계학 개론

  3-2-2. 기초 통계분석

  3-2-3. 다변량 분석

  3-2-4. 시계열 에측

3-3. 정형 데이터 마이닝 

 

 

다변량 분

#다변량 분석
 - 간단한 형식으로 데이터를 요약하는 것
 - 이를 통해 반응변수와 설명변수 간의 관계를 쉽게 이해하기 위해 실행

 - 정보의 손실 없이 설명 변수의 숫자를 줄이거나 다수의 개체를 몇 개의 작은 그룹으로 나눈다.


#다변량 분석의 방법
 - 주성분분석(Principal COmponent Analysis)
 - 요인분석(Factor Analysis)
 - 판별분석(Discriminant Analysis)
 - 군집분석(Cluster Analysis)
 - 정준상관분석(Canonical Correlation Analysis)
 - 다차원척도법(Multi-dimensional Scaling)

 

상관 분석

#인과관계와 공분산의 이해

 - 종속변수(반응변수): 다른 변수의 영향을 받는 변수

 - 독립변수(설명변수): 영향을 주는 변수

 - 산점도: 두 변수 사이의 선형, 함수 관계 파악, 이상값, 집단 구분 확인 가능  

 - 공분산: 두 변수의 방향성 확인, 독립이면 Cov(X,Y) = 0  

 

 

#상관분석

- 데이터 안의 두 변수 간의 관련성을 파악하는 방법
 - 상관계수는 두 변수간 관련성의 정도를 의미

 

#상관분석 유형

피어슨의 상관계수 스피어만 상관계수
두 변수 간의 선형관계의 크기를 측정하는 값으로
비선형적인 관계는 나타내지 못한다.
연속형 변수만 가능
예. 국어 점수와 영어점수의 상관계수
두 변수 간의 비선형적인 관계도 나타낼 수 있음
연속형 외에 이산형 순서형도 가능
예. 국어성적 석차와 영어성적 석차의 상관계수

#상관계수와 상관관계
 - 상관계수 r의 범위는 -1 ≤ r ≤ 1
 -상관계수가 0에 가까울 수록 상관이 낮다고 말한다. (단, r=0이라 함은 두 변수간 직선적 관계가 없다는 의미이다.

 

 

#결정계수
 (1) 회귀 분산분석에서, 총 제곱합(총 변동, SST) = 회귀제곱합(설명된 변동, SSR) + 오차제곱합(설명안된 변동, SSE)
 (2) R^2(결정계수) = 회귀제곱합(SSR) / 총 제곱합(SST)
  → 결정계수가 클 수록 회귀방정식과 상관계수의 설명력이 높아진다.

 

 

다차원 척도법과 주성분 분석


#다차원 척도법(MDS, Multidimensional Scaling)
 - 개체들 사이의 유사성/ 비유사성을 측정하여 2차원 또는 3차원 공간상에 표현하는 방법
 - 개체간의 근접성을 시각화하여 데이터 속에 잠재한 패턴이나 구조를 찾아내는 통계기법
 - 차원의 수가 많을 수록 추정의 적합도가 높아지지만 해석이 어려워서 일반적으로 두 개 차원의 지각도를 작성
 - 유사성의 계산은 Euclidean 거리를 활용

 


#주성분분석(PCA, Principal Component Analysis)
 - 데이터에 많은 변수가 있을 때 변수의 수를 줄이는 차원 감소 기법중 하나.
 - 상관관계가 있는 변수들을 선형 결합하여 변수를 축약
 - 즉, 변수들 간에 내재하는 상관관계 및 연관성을 이용하여 소수의 주성분으로 차원을 축소하는 분석기법

 


#주성분분석 vs 요인분석
 - 자료의 축소라는 차원에서 같은 의미로 해석하기 쉬우나 다른 개념
 - 주성분분석 : 많은 데이터에 포함된 정보의 손실을 최소화해서 단순히 데이터를 축소하는 방법
 - 공통요인분석 : 자료의 축소라는 의미도 포함해 데이터에 내재적 속성까지 찾아내는 방법

 

 

(참고 사이트)

http://dorimriverst000.blogspot.com/2018/07/adsp-iii_45.html

https://kim-mj.tistory.com/143

 

'Certificates > ADsP' 카테고리의 다른 글

[ADsP] 데이터의 이해  (0) 2020.08.20
[ADsP] 시계열 에측  (0) 2020.08.19
[ADsP] 기초 통계분석 - 기술통계, 회귀분석  (0) 2020.08.18
[ADsP] 모수 검정  (0) 2020.08.17
[ADsP] 추정과 가설검정  (0) 2020.08.17

댓글