1-1. 다음 중 암묵지가 아닌 것은?
① 김장김치 담그기의 노하우
② 암묵지는 개인에서 체화되기 되어 있기 때문에 공유하기 어렵다.
③ 현장작업과 같은 경험을 통해 획득할 수 있는 지식
④ 회계, 재무 관련 대차대조표에 요구되는 지식의 매뉴얼 등이 암묵지이다.
정답: ④
1-2. 다음은 어떤 기업내부 데이터베이스 솔루션에 대한 설명인가?
[제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매, 재고, 주문, 공급자와의 거래, 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된 통합애플리케이션]
① ERP
② CRM
③ SCM
④ KMS
정답: ①
1-3. 아래는 용어와 의미를 서로 연결한 것이다. 다음 중 용어 - 의미가 잘못 연결된 것을 모두 나열한 것은?
OLTP - 다차원의 데이터를 대화식으로 분석하기 위한 소프트웨어
BI - 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
BA - 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
Data Mining - 대용량 데이터로부터 의미 있는 관계, 교칙, 패턴을 찾는 과정
① OLTP
② OLTP, BI
③ OLTP, BI, BA
④ OLTP, BI, BA, Data Mining
정답: ③
[1-1-2. 데이터베이스 활용]
#OLTP (On-Line Transaction Processing) ★
- 호스트 컴퓨터와 온라인으로 접속된 여러 단말 간의 처리 형태의 하나이다. 여러 단말에서 보내온 메시지에 따라 호스트 컴퓨터가 데이터베이스를 액세스하고 바로 처리 결과를 돌려보내는 형태를 말한다. 데이터베이스의 데이터를 수시로 갱신하는 프로세싱을 의미한다.
- (예) 주문 입력 시스템, 재고 관리 시스템 등
#OLAP (On-Line Analytical Processing)
- 정보 위주의 분석 처리를 의미하며, 다양한 비즈니스 관점에서 쉽고 빠르게 다차원적인 데이터에 접근하여 의사 결정에 활용할 수 있는 정보를 얻게 해주는 시스템이다.
#BI (Business Intelligence) ★
- 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
#BA (Business Intelligence) ★
- 경영 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
1-4. 데이터 대한 설명으로 부적절한 것은?
① 데이터는 지식경영의 핵심 이슈인 암묵지와 형식지의 상호삭용을 한다.
② 1바이트는 265 종류의 서로 다른 값을 표현할 수 있는 데이터의 크기를 의미한다.
③ 형식지란 개인에 체화된 비밀스러운 지식이다.
④ 지식의 차원에 대해 가장 널리 알려진 것은 Polany가 두가지 차원으로 구성된 암묵지와 형식지이다.
정답: ③
[1-1-1. 데이터와 정보]
#데이터(자료) 양의 단위
B[Bite, 바이트]* | 1B=1Byte | 20B |
KB[Kilo Byte, 킬로바이트] | 1KB = 1024Byte | 210B |
MB[Mega Byte, 메가바이트] | 1MB = 1024KB | 220B |
GB[Gega Byte, 기가바이트] | 1GB = 1024MB | 230B |
TB[Tera Byte, 테라바이트] | 1TB = 1024GB | 240B |
PB[Peta Byte, 페타바이트] | 1PB = 1024TB | 250B |
EB[Exa Byte, 엑사바이트] | 1EB = 1024PB | 260B |
ZB[Zeta Byte, 제타바이트] | 1ZB = 1024EB | 270B |
YB[Yotta Byte,요타바이트] | 1YB = 1024ZB | 280B |
- 일반적으로 8개의 비트를 하나로 묶어 1 Byte라 하고 있으며, 1 Byte가 표현할 수 있는 정보의 개수는 2의 8승 = 256 개가 된다. 바이트는 256 종류의 정보를 나타낼 수 있어 숫자, 영문자, 특수문자 등을 모두 표현할 수 있다. ★
1-5. 빅데이터 위기요인 중 책임 훼손의 사례로 맞는 것은?
① 범죄 예측 프로그램을 통해 범죄 전 체포
② 데이터의 본래 목적 외에 가공 처리되어 사생활이 침해되는 경우
③ 잘못된 지료를 사용하는 경우
④ 미국 NSA가 매일 17억 개의 이메일, 전화통화 내역 수집 저장의 경우
정답: ①
[1-2-3. 위기 요인과 통제 방안]
#사생활 침해
- 개인정보가 포함된 데이터를 목적 외에 활용할 경우사생활 침해를 넘어 사회, 경제적 위협으로 변형될 수 있다.
- 빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많아 좀 더 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안한다. → 동의에서 책임으로
- 사생활 침해 사례: 여행 사실을 트윗한 사람의 집을 강도가 노리는 고전적인 사례 발생 → 익명화 기술 발전이 필요하다.
#책임 원칙 훼손
- 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다. 책임 원칙 훼손 위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화한다. → 결과 기반 책임 원칙 고수
- 책임 훼손의 사례: 범죄 예측 프로그램을 통해 범죄 전 체포
1-6. 빅데이터의 특징을 위기와 통제방안으로 적절한 것은?
가. 사생활 침해의 위기요인은 책임원칙 강화 뿐이다.
나. 알고리즘에 대한 접근권 제공이 데이터 오용을 막을 수있다.
다. 민주주의 사회의 책임원칙에 따라 빅데이터 예측을 인한 통제를 강화해야 한다.
라. 책임원칙의 훼손으로 인해 익명화의 기술이 발전되었다.
마. 알고미즈미스트는 데이터오용의 피해를 막아주는 역할을 한다.
① 가, 나
② 나, 마
③ 가, 다
④ 라, 마
정답: ②
[1-2-3. 위기 요인과 통제 방안]
#데이터 오용
- 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. 대응책으로 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다. → 알고리즘 접근 허용
1-7. 옳은 설명으로 연결된 것은?
가. 메타데이터 : 데이터에 대한 데이터이다.
나. 인덱스 : 원하는 원하는 형태의 배열과 찾아보기를 가능하게 해주는 기능
다. SOW : 전체 업무를 분류하여 만든 후 각요소를 평가하고, 일정별로 계획하며 그것을 완수할 있는 사람에게 할당해주는 역할
라. 데이터매핑 : 관련된 비정형데이터를 연관시키는 작업
① 가, 나
② 가, 라
③ 나, 다
④ 나, 라
정답: ①
#데이터의 유형
- 메타데이터 : 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터이다. 데이터에 대한 데이터이다. ★
- 인덱스 : 데이터베이스 내의 데이터를 신속하게 정렬하고 탐색하게 해주는 구조. 원하는 원하는 형태의 배열과 찾아보기를 가능하게 해주는 기능 ★
1-8. 다음 중 정형데이터가 아닌 것은?
① 도형
② 그림
③ 숫자
④ 문자
정답: ④
단답1. ( )란 데이터로터 의미 있는 정보를 추출해내는 학문이며, 정형 또는 비정형 막론하고 인터넷, 휴대전화, 감시용 카메라 등에서 생성되는 숫자와 문자, 영상 정보 등 다양한 유형의 데이터를 대상으로 하며, 분석뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념이다.
정답: 데이터사이언스
단답2. 다음 중 빅데이터 활용 기법 중 무엇에 관한 설명인가.
[최적화가 필요한 문제의 해결책을 자연선택, 돌연병이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법이다. 이 기법은 '최대의 시청률을 얻으려면, 어떤 프로그램을 어떤 시간대에 방송해야 하는가?와 같은 문제를 해결할 때 사용된다.]
정답: 유전알고리즘 (유전자 알고리즘)
2-1. 데이터 표준화의 특징 중 올바른 것은?
① 메타 데이터와 데이커 사전의 관리 원칙을 수립
② 데이터 표준 용어 설명, 명명규칙, 메타데이터 구축, 데이터 사전 구축
③ 메타 데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성
④ 데이터 거버넉스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링 실시
정답: ②
2-2. 문제 탐색의 도구가 아닌 것은?
① 비즈니스 모델 기반 문제 탐색
② 탐색적 문제 발견
③ 외부 참조 모델 기반 문제 탐색
④ 분석 유즈 케이스
정답: ②
2-3. 다음 설명하는 분석 조직 구조는?
[전사 분석 업무를 별도의 분석 전담 조직에서 담당 전략적 중요도에 따라 분석 조직이 우선순위를 정해서 진행 가능 협업 업무 부서의 분석 업무와 이중화/이원화 가능성이 높음]
① 집중구조
② 기능구조
③ 분산구조
④ 복합구조
정답: ①
2-4. 분석 프로젝트 관리의 영역이 아닌 것은?
① 프로세스 관리
② 시간
③ 범위
④ 품질
정답: ①
2-5. 분석 과제 기획 시 고려요소가 아닌 것은?
① 유사 분석 시나리오 및 솔루션이 있다면, 최대한 적절학 유즈케이스 활용해야 한다.
② 장애 요소들에 대한 사전 계획 수립이 필요한다.
③ 분석 과제가 기업에 내재화될 수 있도록 지속적인 교육 관리가 필요하다.
④ 데이터 분석을 위해서는 데이터 정형화가 필수적이다.
정답: ①
2-6. 포트폴리오 사분변 분석에서 일반적으로 가장 먼저 하는 것은?
① 1사분면
② 2사분면
③ 3사분면
④ 4사분면
정답: ③
2-7. 목표 시점별로 당면한 과제를 빠르게 해결하는 과제 중심적인 접근 방식의 특징이 아닌 것은?
① Problem Solving
② Quick & Win
③ Speed & Test
④ Accuracy & Deploy
정답: ④
2-8. 빅데이터 거버넌스의 특징으로 옳바른 것끼리 묶은 것은?
A - 이용 가능한 모든 정보를 분석 기획에 포함해야 한다.
B - 양질의 데이터가 중요하므로 정보 수명주기보다 데이터 품질 관리가 더 중요하다.
C - ERD는 운영중인 데이터베이스와 일치하기 위해여 철저한 변경관리가 필요하다.
D - 빅데이터 거버넌스 산업분야별, 데이터 유형별, 정보 거버넌스 요소별로 구분하여 작성한다.
① A, B
② A,C
③ C, D
④ B, D
정답: ③
단답3. 다음 어떤 모델링에 관한 설명인가?
[대규모 시스템 소프트웨어 개발에 적합 여러 변의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시켜가는 모델]
정답: 나선형모델
[2-1-2. 분석 방법론]
#방법론의 적용 업무의 특성에 따른 모델
(1) 폭포수 모델(Waterfall model)
- 단계를 순차적으로 진행하는 방법으로, 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 문제가 발견되면 피드백 과정이 수행
(2) 나선형 모델(Spiral model) ★
- 대규모 시스템 소프트웨어 개발에 적합 여러 변의 개발 과정을 거쳐 점진적으로 프로젝트를 완성시켜가는 모델
- 반복을 통해 점증적으로 개발하는 방법으로 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려움
(3) 프로토타입 모델(Waterfall model)
- 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방법으로 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위하여 개발의 일부분만을 우선 개발한다. 사용자는 시험 사용을 하게 되고 이를 통해서 요구를 분석하거나 요구 정당성을 점검, 성능을 평가하여 그 결과를 개선 작업에 반영
단답4. 기업의 경영목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출하며, 이를 수행하기 위한 전략 및 실행 계획을 수립하는 전사적인 종합추진 계획을 무엇이라 하는가?
정답: 정보전략계획(ISP)
3-1. 시계열의 분해요인이 아닌 것은?
① 추세요인
② 계절요인
③ 순환요인
④ 교호요인
정답: ④
3-2. 다중회귀모형의 통계적 유의성을 확인 방법은?
① F 통계량을 확인한다.
② 결정계수를 확인한다.
③ 잔차통계량을 확인한다.
④ 회귀계수의 t값을 확인한다.
정답: ①
[3-2-2-1. 회귀분석]
#다중선형회귀분석 결과 해석
- 모형의 통계적 유의성은 F-통계량으로 확인
- 유의수준 5% 하에서 F-통계량의 p-value 값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의하다고 볼 수 있음
- F-통계량이 크면 p-value가 0.05보다 작아지고 귀무가설을 기각. 모형이 유의하다고 결론
3-3. R코드의 결과로서 옳지 않은 것은?
X<-1:5
y<-seq(10,50,10)
rbind(x,y)
① 2*5 행렬이다.
② 결과[1,]은 x와 같다.
③ 결과[,1]은 y와 같다.
④ 데이터 프레임 타입의 자료 구조이다 .
정답: ③
3-4. R에서 새로운 패키지를 설치 및 사용하고자 할 때 명령어와 순서로 적걸한 것은?
① install.packages("패키지명") → library(패키지명)
② install.packages(패키지명) → library("패키지명")
③ library("패키지명") → install.packages("패키지명")
④ library(패키지명) → install. packages("패키지명")
정답: ①
3-5. 계층적 군집은 두 개체 간의 거리에 기반하므로 거리 측정에 대한 정의가 필요하다. 다음 중 dist() 함수에서 지원하지 않은 거리는?
① 유클리드
② 맨하튼
③ 민코프스키
④ binary
정답: ④
3-6. 계층적 군집에서 군집내외 오차제곱함에 기초하여 군집을 수행하는 군집 방법은 무엇인가?
① 단일연결법
② 완전연결법
③ 평균연결법
④ 와드연결법
정답: ④
3-7. 아래는 학생들의 키와 몸무게를 정규화한 데이터이다. 최단연결법을 통해 학생들의 3개의 군집으로 나누고자 한다. 다음 중 가장 정적한 것은? (유클리디안 거리 사용)
사람 | (키, 몸무게) |
A | (1,5) |
B | (2,4) |
C | (4,6) |
D | (4,3) |
E | (5,3) |
① (A,C), (B), (D,E)
② (A,D), (B), (C,E)
③ (A,E), (C), (B,E)
④ (A,B), (C), (D,E)
정답: ④
3-8. 아래 거래 전표에서 연관 규칙 "A→B"의 향상도는 얼마인가?
{A} |
100 |
{B,C} |
100 |
{C} |
100 |
{A, B, C, D} |
50 |
{B,C} |
200 |
{A, B, D} |
250 |
{A, C} |
200 |
① 30%
② 50%
③ 83%
④ 100%
정답: ③
P(A n B) = 300/1000 = 0.3
P(A) X P(B) = (600/1000)*(600/1000) = 0.6*0.6 = 0.36
향상도 = 0.3/0.36 = 0.83
3-9. 자료의 척도에 관한 설명이다. 적절하지 않은 것은?
① 명목척도들 중 항목들 간에 서열이나 순위가 존재하는 척도를 서열척도라고 한다.
② 구간척도는 아무것도 없는 상태를 '0'으로 정할 수 있는 척도이다.
③ 등간척도와 비율척도는 간격이 일정하여 연속형 변수라고 한다.
④ 남녀, 혈액형 등은 대표적인 명목척도이다.
정답: ②
3-10. 표본공간과 확률에 관한 설명 중 부적절한 것은?
① 모든 사건의 E의 확률값은 0과 1사이에 있다.
② 배반사건이란 교집합이 공집합인 사건들을 말한다.
③ 이산형 확률변수에는 베르누이분포, 이항분포, 기하분포, 포아송분포 등이 있다.
④ 독립하는 두 사건 A, B 독립이면, P(B/A)=(B)와 다르다.
정답: ④
3-11. 이산형 확률변수의 기댓값 계산식은?
① E(X) = Σx*f(x)
② E(X) = ∫x*f(x)
③ E(x) = x*f(x)
④ E(x) = sd(x)
정답: ①
3-12. 수면제 유도제 데이터를 통한 t-test 결과이다. 다음 중 결과 해석이 적절하지 않은 것은?
① 수면유도제 2가 수면유도제 1보다 효과적이다.
② 유의수준 0.05하에 두 모평균은 차이가 있다고 말할 수 있다.
③ 신뢰구간이 0을 포함하므로 평균차이가 없다고 봐도 무방하다.
④ 독립표본 t 검정인 경우 분석 전에 등분삼 검정을 실시한다.
정답: ①
3-13. 주성분분석에 대한 설명으로 부적절한 것은?
① 제 2변수 구하는 주성분함수식은 -0.69*x1+-0.54*x2+0.35*x3+0.33*x4 이다.
② 주성분 2개의 누적 기여율은 92.9%이다.
③ 변수들의 scale이 많이 다른 경우 특정 변수가 전체적인 경향을 좌우하기 때문에 상관계수 행렬을 사용하여 분석하는 것이 좋다.
④ Princomp(data, cor = True)와 결과와 다르다.
정답: ④
3-14. 표본조사에 대한 설명으로 부적절한 것은?
① 조사과정에서 발생하는 오류는 표본 추출 오류와 비표본 추출로 분류할 수 있다.
② 표본편의(Sampling Bias)는 표본 추출 방법에서 기인하는 오차를 의미한다.
③ 표본편의는 확률화에 의해 최소화하거나 없앨 수 있다.
④ 비표본오류는 표본크기가 커져도 증가 안 한다.
정답: ④
3-15. 주성분분석해석으로 옳지 않은 것은?
① 80% 이상 설명하려면 주성분 4개이상 선택하면 된다.
② 제1성분의 설명력은 45%이다.
③ 공분산행렬을 활용한 결과이다.
④ 17차원에서 2차원으로 줄이면, 데이터 손실율은 약 30.51%이다.
정답: ③
3-16. 인공신경망의 특징으로 부적절한 것은?
① 분석사의 주관과 경험에 따른다.
② 입력변수의 속성에 따라 활성화 함수의 선택이 달라진다.
③ 역전파 알고리즘 동일 입력층에 대한 원하는 값이 출력되도록 개개의 weight를 조정하는 방법으로 사용된다.
④ 이상치 잡음에 민감하지 않다.
정답: ②
3-17. Summary() 설명 중 적절하지 않은?
① cars 자료는 두개의 숫자형 변수로 구성되어 있다.
② speed 변수의 평균은 중앙값보다 크다.
③ cars 자료는 결측값이 포함되지 않은 자료이다.
④ speed변수의 75% 백분위수는 이 자료에서 알 수 없다.
정답: ④
3-18. 원 데이터로 집합으로부터 크기가 같은 표본을 중복을 허용하여 복원 추출하여 각 표본에 대한 분류기(Classifiers)를 생성하는 기법은?
① 배깅
② 부스팅
③ 랜덤포레스트
④ 퍼셉트론
정답: ①
3-19. 오분류표를 활용한 평가지표 F1지표 중 민감도(Sensitivity)와 같은 지표는?
① Recall
② Specificity
③ Precision
④ Kappa
정답: ①
3-20. a 제품 구입 -> a 제품 구입의 연관 규칙 측정 지표 중 지지도( Support)란?
① a와 b가 동시에 포함된 거래수/전체 거래수
② a와 b가 동시에 포함된 거래수/a가 포함된 거래수
③ a와 b가 동시에 포함된 거래수/b가 포함된 거래수
④ a가 거래수/전체 거래수
정답: ①
3-21. 연관분석의 특징으로 옳지 않은 것은?
① 조건반응(if thn)으로 표현되는 연관분석의 결과를 이해하기 쉽다.
② 비목적성 분석 기법이다.
③ 세분화 분석 품목 없이 연관 규칙을 찾을 수 있다.
④ 분석 계산이 간편하다.
정답: ③
3-22. 다음 중 상관분석 해석이 적절하지 않은 것은?
① Sales와 CompPrice 간의 상관계수는 유의하지 않다.
② Sales와 Price 변수 간 강한 양의 선형관계이다.
③ Price가 올라갈수록 Sales는 낮아지는 경향이 있다.
④ Sales와 가장 강한 상관관계를 보이는 변수는 Price이다.
정답: ②
Sales와 Price는 상관관계를 가질 뿐, 상관분석에서 선형 관계를 알 수 없다.
3-23. 연관 규칙 지표에 대한 설명 중 옳은 것은?
① 향상도가 1보다 크면 이 규칙은 결과를 예측하는 데 우수하다는 것을 의미한다.
② 향상도가 1이면 두 품목 간에 상호 연관성이 높다는 것으로 해석한다.
③ 향상도가 1보다 작으면 품복간에 독립적인 관계로 본다.
④ 지지도는 조건부 확률로 품목 a를 구매한 사람이 품목 b도 구매한다고 해석한다. (a->b)
정답: ①
3-24. 주성분분석에 대한 설명으로 옳지 않은 것은?
단답5. 다음은 다중회귀의 어떤 단계적 변수선택에 관한 설명인가?
[독립변수 후보 모두를 포함한 모형에서 출발해 제곱합의 기준으로 가장 적은 영향을 주는 변수로부터 하나씩 제거하면서 더 이상 유의하지 않은 변수가 없을 때까지 설명변수를 제거하고, 이 때의 모형을 선택한다.]
정답: 후진제거법
단답6. 의사 결정나무의 형성 과정 중 최종마디가 너무 많으면 모형이 과대적합 상태로 현실 문제에 적응할 수 없는 규칙이 나오게 된다. 이러한 과대적합(overfitting) 문제를 해결하기 위해 필요한 것은 무엇인가?
정답: 가지치기
단답7. 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었을지를 각등급별로 파악하는 그래프를 무엇이라 하는가?
정답:향상도 곡선
[3-3-2-5. 분류 모형 평가]
#향상도 곡선(lift curve) ★
- 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었을지를 각등급별로 파악하는 그래프
- 상위등급에서 매우 크고 하위 등급으로 갈수록 감소하게 되면 일반적으로 모형의 예측력이 적절하다고 판단하게 된다.
단답8. 연관구칙 분석에서 품목 A의 거래수가 50, B의 거래수가 30, 품목 A,B가 동시에 포함된 거래수가 20, 전체 거래수가 100일 때 품목 A, B의 지지도(Support)를 계산하시오.
정답: 20/200 = 0.2
단답9. 다음 설명하는 시계열 모형은 무엇인가?
[현시점의 자료를 유한 개의 백색잡음의 선형결합으로 표현되었기 때문에 항상 정상성을 만족한다. 자기 상관 함수 p+1시차 이후 절단된 이후 형태를 취한다.]
정답: MR 모형 (이동평균모형)
- 시계열 모델 중 자기 자신의 과거 값을 사용하여 설명하는 모형이다.
- 백색 잡음의 현재값과 자기 자신의 과거값의 선형 가중합으로 이루어진 확률 모형이다.
- 모형에 사용하는 시계열 자료의 시점에 따라 1차, 2차...,p차 등을 사용하나 정상시계열 모형에서는 주로 1,2차를 사용한다.
단답10. 아래는 스위스의 47개 프랑스어 사용지역의 출산율(Fertility)과 교육수준(Education)과의 관계를 회귀모형으로 추정한 것이다. 아래의 결과를 사용하여 결정계수()을 계산하시오.
> out=lm(Fertility~Education,data=swiss)
> anova(out)
Analysis of Variance Table
Response: Fertility
Df Sum Sq Mean Sq F value Pr(>F)
Education 1 3162.7 3162.7 35.446 3.659e-07 ***
Residuals 45 4015.2 89.2
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 '' 1
정답: SSR/SST = 3162.7/(3162.7+4015.2) = 0.441
[3-2-3. 다변량 분석]
#결정계수★
- 결정계수는 총 변동 중 회귀모형에 의하여 설명되는 변동이 차지하는 비율이다.★
- 결정계수가 커질수록 회귀방정식의 설명력이 높아진다.
- 결정계수는 0~1 사이의 범위를 갖는다.
- 회귀계수의 유의성 검증은 t값과 p값을 통해 확인하다.
(1) 회귀 분산분석에서, 총 제곱합(총 변동, SST) = 회귀제곱합(설명된 변동, SSR) + 오차제곱합(설명안된 변동, SSE)
(2) R^2(결정계수) = 회귀제곱합(SSR) / 총 제곱합(SST) ★
→ 결정계수가 클 수록 회귀방정식과 상관계수의 설명력이 높아진다.★
댓글