1-1. 빅데이터의 출현 배경 설명으로 부적절한 것은?
① 산업계에서 일어나 변화를 보면 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
② 학계에서도 빅데이터를 다루는 현상들이 늘어나고 있다. 대표적인 사례는 인간 게놈 프로젝트가 있다.
③ 디지털화, 저장 기술, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등 관련 기술 발전과 관련이 있다.
④ 급격한 데이터 구조의 정형화 증가가 원인이 되었다.
정답: ④
[1-2-1. 빅데이터의 이해 - #빅데이터의 출현배경]
데이터 구조의 정형화는 빅데이터 출현 배경에 관한 설명으로 부적절하다. 사진, 영상, 음석 등과 같이 특정한 처리 프로세스를 거쳐 분석데이터로 변경 후 분석해야 하는 비정형 데이터의 등장으로 빅데이터가 출현했다.
1-2. 통찰력을 제공하는 분석 기술이 아닌 것은?
① 추출
② 최적화
③ 모델링
④ 예측
정답: ①
추출은 정보를 제공하는 분석 기술에 해당하고 최적화, 모델링, 권고, 시뮬레이션, 예측 등은 통찰력을 제공하는 분석 기술에 해당한다.
1-3. 가트너가 언급한 데이터 사이언티스트의 역량이 아닌 것은?
① 데이터 관리
② 비즈니스 분석
③ 하드 스킬
④ 분석 모델링
정답: ③ (하드 스킬 → 소프트스킬)
[1-3-1. 전략 인사이트 도출을 위한 필요 역량 - #데이터 사이언티스트의 요구역량]
가트너는 데이터 사이언티스트가 갖춰야할 역량으로 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트스킬을 제시했다.
1-4. 내재된 경험을 문서나 매체로 저장하는 것은?
① 표출화
② 공통화
③ 내면화
④ 연결화
정답: ①
[1-1-1. 데이터와 정보 - SECI 모델]
표출화는 형식지 요소 중 하나로 개인에게 내재된 경험을 객관적인 데이터로 문서나 매체에 저장, 가공, 분석하는 과정이다.
1-5. 빅데이터 시대의 위험 요소가 아닌 것은?
① 사생활 침해
② 책임원칙 훼손
③ 데이터 오용
④ 익명화
정답: ④
[1-2-3. 위기 요인과 통제 방안 - #빅데이터 시대의 위기 요인]
빅데이터 시대의 위기 요인에는 사생활 침해, 책임 원칙 훼손, 데이터 오용이 있다. 익명화는 빅데이터 시대 위기 요인인 사생활 침해를 방지할 수 있는 방안이다.
1-6. 인문학 열풍의 이유가 아닌 것은?
① 단순 세계화에서 복잡한 세계로의 변화
② 비즈니스의 중심이 제품생산에서 서비스의 변화
③ 경제와 산업의 논리가 생산에서 시장 창조로 바꿔었다.
④ 빅데이터 분석 기법 및 방법론의 확대
정답: ④
[1-3-1. 전략 인사이트 도출을 위한 필요 역량 - #전략적 통찰력과 인문학의 부활]
컨버전스에서 디버전스로의 변화, 생산에서 서비스로의 변화, 생산에서 시장 창조로의 변화가 인문학 열풍을 가져오게 한 외부환경 요소이다.
1-7. 데이터 사이언스에 대한 설명이 부적절한 것은?
① 통계학과 데이터사이언스는 '데이터를 다룬다'는 것이 비슷하지만 통계학은 더욱 확장된 유형의 데이터를 다룬다.
② 대부분의 전문가들이 데이터 사이언티스트가 갖춰야할 역량으로 호기심을 언급한다.
③ 더 높은 가치 창출과 차별화를 가져오는 것은 전략적 통찰력과 관련된 소프트 스킬이다.
④ 뛰어난 데이터 사이언티스트는 정량적 분석이라는 과학과 인문학적 통찰을 근거로 합리적 추론을 한다.
정답: ①
데이터 사이언스란 데이터 공학, 수학, 통계학, 컨퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문지식을 종합한 학문이다.
1-8. DIKW 내용 중 다른 하나는?
① 오늘의 날씨는 21도이다.
② A마트의 쇠고기는 1킬로 2만 원이다.
③ B회사의 매출액 3천만 원으로 예상된다.
④ C마트는 100원에 D마트는 200원에 연필을 판다.
정답: ③
③은 지식에 해당하며, 나머지는 정보에 해당된다.
단답1. 아래은 빅데이터가 만들어 내는 본질적인 변화이다. (A)와 (B)에 들어갈 말을 쓰시오.
(A)는(은) 어떤 현상에 대하여 현상을 발생시킨 원인과 그 결과 사이의 관계를 말하고,
(B)는(은) 어떤 두 현상이 관계가 있음을 말하지만 어느 쪽이 원인인지 알 수 없다.
정답: (A) 인과관계, (B) 상관관계
상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나고 있다. 이처럼 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의한 미래예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.
단답2. 다음은 빅데이터의 무슨 역할을 설명하는가?
페이스북은 SNS 서비스로 시작했지만, 2006년 F8 행사를 기점으로 자신들의 소셜그래프 자산을 외부 개발자들에게 공개하고 서드파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작했다. 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공, 처리, 저장해 두고, 이 데이터에 접근할 수 잇도록 API를 공개하였다.
정답: 플랫폼
[2-2-2. 분석 거버넌스 체계 수립 - #플랫폼]
단순한 분석 응용프로그램 뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템으로 일반적으로 하드웨어에 탑재되어 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할을 수행한다.
2-1. 데이터 거버넌스에서 메타데이터 구축/표준용어 설정/명명규칙 수립 단계는?
① 데이터 표준화
② 데이터 관리체계
③ 데이터 저장서 관리
④ 표준화 활동
정답: ①
[2-2-2. 분석 거버넌스 체계 수립 - #데이터 거버넌스 체계 수립]
· 데이터 표준화: 데이터 표준 용어 설정, 명명 규칙(Name rule) 수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성된다.
· 데이터 관리 체계: 데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙을 수립한다.
· 데이터 저장소 관리: 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성한다.
· 표준화 활동: 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시한다.
2-2. 하향식 접근방식의 문제 탐색 단계에 대한 설명이 아닌 것은?
① 비즈니스 모델 틀을 활용하여 가치가 창출될 문제를 누락없이 도출할 수 있다.
② 환경과 경쟁구도의 변화, 역량의 재해석을 통해 분석 기회를 추가 도출한다.
③ 외부 참조 모델 기반 문제 탐색을 한다.
④ 분석 유즈 케이스보다 새로운 이유 탐색이 우선한다.
정답: ④
[2-1-3. 분석 과제 발굴 - #하향식(Top-down) 접근 방식 ]
#하향식(Top-down) 접근 방식: (1) 문제 탐색 → (2) 문제 정의 → (2) 해결방안 탐색 → (3) 타당성 검토
#문제 탐색 단계: 비스니스 모델기반 문제 탐색, 외부 참조 모델 기반 문제 탐색, 분석 유즈 케이스 정의
- 현재의 비즈니스 모델 및 유사 동종 사례 탐색을 통해서 도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유스케이스로 표기하는 것이 필요하다.
#분석 유스 케이스: 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용한다.
2-3. 분석 마스터 플랜 수립에서 과제 우선순위 우선순위 결정 내용 중 부적절한 것은?
① 속도는 비즈니스 효과이다.
② ROI 관점에서 보는 빅데이터는 4V라 할 수 있다.
③ Volume, Variety는 투자비용 요소이다.
④ ROI 관점에서의 분석 과제 우선순위 평가 기준은 시급성과 난이도가 있다.
정답: ①
[2-2-1. 마스터플랜 수립 프레임워크 - #ROI 관점에서 빅데이터의 핵심 특징]
가치는 비즈니스 효과에 해당하며, 크기, 다양성, 속도가 투자비용요소에 해당한다.
2-4. 분석 기획 고려사항 중 장애 요소에 대한 부적절한 설명은?
① 데이터 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 유형에 대한 분석이 선행적으로 이루져야 한다.
② 유사 분석 시나리오 및 솔루션이 있다면 이를 최대한 활용하는 것이 중요하다.
③ 장애요소들에 대한 사전 계획 수립이 필요하다.
④ 이해하기 쉬운 모델보다는 복잡하고 정교한 모형이 더 효과적이다.
정답: ④
[2-1-1. 분석 기획 방향성 도출 - #분석 기획 시 고려사항]
복잡하고 정교한 모형은 분석 기획 고려사항 중 장애요소에 해당하지 않는다.
#분석 기획 시 고려사항
(1) 가용한 데이터
- 분석을 위한 데이터의 확보가 우선적이며, 데이터의 유형에 따라서 적용 가능한 솔루션 및 분석 방법이 다르기 때문에 데이터에 대한 분석이 선행적으로 이루어져야 한다.
예) 반정형 데이터: 센서 중심으로 스트리밍되는 머신 데이터
(2) 적절한 유스케이스
- 분석을 통해서 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유즈케이스의 탐색이 필요하다.
- 기존에 잘 구현되어 활용되고 있는 유사 분석 시나리오 및 솔루션을 최대한 활용하는 것이 중요하다.
(3) 분석과제 수행을 위한 장애요소
- 분석을 수행함에 있어서 발생하는 장애요소들에 대한 사전 계획 수립이 필요하다.
- 일회성 분석으로 그치지 않고 조직의 역량으로 내재화하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 한다.
2-5. 분석 대상을 모르나, 기존 분석 방식을 활용할 경우와 대상을 새로 선정하는 것은?
① 통찰, 발견
② 최적화, 통찰
③ 솔루션, 발견
④ 최적화, 솔루션
정답: ①
[2-1-1. 분석 기획 방향성 도출 - #분석 주제 유형]
분석 대상이 명확하게 무엇인지 모르는 경우에는 기존 분석 방식을 활용하여 통찰을 도출해냄으로써 문제의 도출 및 해결에 기여하거나 발견 접근법으로 분석 대상 자체를 새롭게 도출할 수 있다.
분석의 대상(What) → 분석의 방법(How)↓ |
Known | Un-Known |
Known | 최적화(Optimization) | 통찰(Insight) |
Un-Known | 솔루션(Solution) | 발견(Discovery) |
2-6. 분석 과제 수행 시 고려하는 5요소가 아닌 것은?
① 데이터 분석 방법
② 데이터 크기
③ 데이터 복잡성
④ 스피드
정답: ①
[2-1-4. 분석 프로젝트 관리 방안 - #분석 과제 관리를 위한 5가지 주요 영역]
데이터 분석 방법 X → 정확도와 정밀성 or 분석 복잡성
#분석 과제 관리를 위한 5가지 주요 영역
(1) 데이터 크기 (Data size_
(2) 데이터 복잡성 (Data complexity)
(3) 속도 (Speed)
(4) 분석 복잡성 (Analytic complexity)
(5) 정확도와 정밀성 (Accuracy & Precision)
2-7. 정형-반정형-비정형 데이터 순서로 된 것은?
① 물류 창고 재고 데이터 - XML - 이메일 전송 데이터
② RFID - Sensor - Loyalty
③ SNS Media - Sensor - EPR
④ Bar Code System - Internet of Things Sensing - Email
정답: ①
[2-1-1. 분석 기획 방향성 도출 - #분석 기획 시 고려사항]
정형 데이터의 유형은 ERP, CRM, SCM 등 정보시스템이며, 반정형 데이터의 유형은 로그 데이터, 모바일 데이터, 센싱 데이터이다. 비정형 데이터의 유형 영상, 음성 문자 등이다.
2-8. 프로토타이핑 기법의 내용으로 적절한 것은?
① 신속하게 해결책 모형 제시, 상향식 접근 방법에 활용한다.
② 빠른 결과보다 모델의 정확성에 중점을 둔 기법이다.
③ 워터폴 방식처럼 전체적인 플랜을 짜고 문서를 통해 개발한다.
④ 대표적인 하향식 접근방법 기법이다.
정답: ①
[2-1-3. 분석 과제 발굴 - #상향식(Bottom-up) 접근 방식]
프로토타이핑 접근법은 신속하게 해결책이나 모형을 제시함으로써 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방법이다.
단답3. 다음은 무엇에 대한 설멍인가?
문제가 먼저 주어지고 해답을 찾기 위해 과정을 체계적으로 단계화하여 수행하는 방식
정답: 하향식 접근방식
[2-1-3. 분석 과제 발굴 - #하향식(Top-down) 접근 방식]
하향식 접근 방식은 문제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 분석 발굴 방식이다.
단답4. 아래는 빅데이터 분석 프로세스에서 데이터 분석 단계 중 어떤 것에 대한 설명인가?
분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정
정답: 모델링
[2-1-2. 분석 방법론 - #빅데이터 분석 방법론]
모델링은 분석용 데이터를 이용한 가설 설정을 통하여 통계모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정이다.
#빅데이터 분석 방법론
(1) 분석 기획
(2) 데이터 준비
(3) 데이터 분석
(4) 시스템 구현
(5) 평가 및 전개
#빅데이터 분석 프로세스 - 데이터 분석 단계
(1) 분석용 데이터 준비
- 분석에 필요한 데이터셋을 준비하기 위해 프로젝트 목표와 도메인을 이해하고 비즈니스 룰을 확인한다. 전사 차원으로 구축된 데이터 스토어에서 분석용 데이터셋을 추출하고 데이터베이스나 구조화된 데이터 형태로 편성한다.
(2) 텍스트 분석
- 텍스트로부터 분석 목적에 맞는 적절한 모델을 구축한다. 텍스트 분석 결과는 모델링 태스크와 연동하여 프로젝트 목적에 부합되는 최종 모델을 구축하기도 한다.
(3) 탐색적 분석
- 분석용 데이터 셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다.
- EDA는 다양한 데이터 시각화를 활용하여 데이터의 가독성을 명확히 하고 데이터의 형상 및 분포 등 데이터 특성을 파악하는 태스크이다.
(4) 모델링
- 분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정
- 기계학습은 지도학습과 비지도학습 등으로 나뉘어 다양한 알고리즘을 적용할 수 있다. 모델링을 효과적으로 진행하기 위해서는 모델링 전에 데이터셋을 훈련용과 시험용으로 분할함으로써 모델의 과적합을 방지하거나 모델의 일반화에 이용된다.
(5) 모델 평가 및 검증
- 분석 기획 단계에서 작성된 프로젝트 정의서의 평가 기준에 따라 모델의 완성도를 평가한다. 모델 검증은 분석용 데이터 셋이 아닌 별도의 데이터 셋으로 모델의 객관성과 실무 적용성을 검증해야 한다. 검증 스텝에서 요구되는 성능 목표에 미달하는 경우 모델링 태스크를 반복하는 등 모델 튜닝 작업을 수행한다.
3-1. 회귀모형의 변수 선택법이 아닌 것은?
① 주성분 분석
② 모든 조합의 회귀분석
③ 라쏘 (Lasso)
④ 단계별 변수 선택
정답: ① 주성분분석
[3-2-2-1. 회귀분석 - #최적 회귀방정식의 선택]
주성분분석은 서로 상관성이 높은 변수들의 선형결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 하는 기법이다.
#최적회귀방정식의선택
(1) 모든 가능한 조합의 회귀분석
-모든 가능한 독립변수들의 조합에 대한 회귀모형을 고려해 가장 적합한 회귀모형을 선택
(2) 전진선택법 (Forward Selection)
- 상수모형으로부터 시작해 중요하다고 생각되는 설명변수부터 차례로 모형에 추가
- 후보가 되는 설명변수 중 가장 설명을 잘하는 변수가 유의하지 않을 때의 모형을 선택
(3) 후진제거법 (Backward Elimination)
-독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거
- 더 이상 유의하지 않은 변수가 없을 때의 모형을 선택
(4) 단계별방법 (Stepwise Selection)
- 전진선택법에 의해 변수를 추가하면서, 기존 변수의 중요도가 약화되면 제거하는 등 단계별로 추가 또는 제거
- 더 이상 추가 또는 제거되는 변수가 없을 때의 모형을 선택
#세 가지 정규화 방법의 비교
구분 |
릿지(Ridge) |
라쏘(Lasso) |
엘라스틱넷(Elastic Net) |
제약식 |
L2norm |
L1norm |
L1 + L2norm |
변수선택 |
불가능 |
가능 |
가능 |
장점 |
변수 간 상관관계가 높아도 좋은 성능 |
변수 간 상관관계가 높으면 성능이 떨어짐 |
변수 간 상관관계를 반영한 정규화 |
3-2. Credit 데이터는 신용카드 대금(balance)과 소득(income), 학생여부(student = Y/N)을 포함한다. Balance를 종속변수로 하는 보기의 명령러 중 아래 그림과 같은 회귀식을 나타내는 것은?
① lm(Balance~income+student,data=Cresit)
② Im(income~Balance+Student, data=Credit)
③ Im(Balance~income+student,data=Credit)
④ lm(income~Balance+student, data=Credit)
정답: ③
Credit 데이터에서 신용카드 대금(balance)를 종속변수로 하고 소득(income)과 학생여부(student)를 독립변수로 하는 회귀식은 Im(Balance~income+student,data=Credit)이다.
3-3. 거리를 활용한 측도에 대한 설명으로 틀린 것은?
① 유클리드는 두 점을 잇는 가장 짧은 직선 거리이다.
② 맨해튼 거리는 두 점의 좌표 간의 절댓값 차이를 구하는 것이다.
③ 마할라노비스 거리는 변수의 표준편차를 고려한 거리 측도이나 변수 간에 상관성이 있는 경우에는 표준화 거리 사용을 검토해야 한다.
④ 표준화, 마할라노비스 거리는 통계적 거리의 개념이다.
정답: ③
[3-3-2-1. 계층적 군집 - #군집 간 거리 측정 방법]
마할라노비스 거리는 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 표준화한 거리이다. 두 벡터사이의 거리를 산포를 의미하는 표본 공분산으로 나눠주어야 하며, 그룹에 대한 사전 지식 없이는 표본 공분산을 계산할 수 없으므로 사용하기 곤란하다.
#유클리드(유클리디안, Euclidean) 거리 : 데이터간 유사성 측정을 위해 사용, 통계적 개념이 내포X, 변수들의 산포정도 감안X
예시)
#맨하탄(Manhattan) 거리 : 유클리드와 함께 가장 많이 쓰는 거리, 건물간 최단거리 계산 ★
예시)
#표준화 (Statistical) 거리: 해당 변수의 표준편차로 척도 변환 후 유클리디안 거리를 계산
#마할라노비스 거리: 통계적 개념이 포함된 거리, 변수들의 산포를 고려하여 표준화한 거리
3-4. 데이터의 정규성 확인 방법이 아닌 것은?
① Durbin - Watson
② Shapiro - Wilks test
③ Q-Q plot
④ histogram
정답:①
Durbin - Watson test는 회귀 모형 오차항의 자기 상관이 있는지에 대한 검정이다.
[3-2-2-1. 회귀분석 - #정규성 검정]
#정규성 검정
(1) Q-Q plot
그래프를 그려서 정규성 가정이 만족되는지 시각적으로 확인하는 방법이다.
대각선 참조선을 따라서 값들이 분포하게 되면 정규성을 만족한다고 할 수 있다.
한쪽으로 치우치면 정규성 가정에 위배되었다고 볼 수 있다.
(2) Shapiro-Wilk test( 샤피로 - 윌크 검정 )
-오차항이 정규분포를 따르는지 알아보는 검정, 회귀분석에서 모든독립변수에 대해서
-종속변수가 정규분포를 따르는지 알아보는 방법이다.
-귀무가설은 , '정규분포를 따른다'
-p-value 가 0.05보다 크면 정규성을 가정하게 된다.
(3) Kolmogorov-Smirnov test(콜모고로프-스미노프 검정)
- 자료의 평균/표준편차와 히스토그램을 표준정규분포와 비교하여 적합도를 검정한다.
-샤피로와 마찬가지로 p-value가 0.05보다 크면 정규성을 가정하게 된다.
3-5. 상관분석에 대한 설명이 잘못된 것은?
① 종속변수 값을 예측하는 선형모형 추출 방법이다.
② 등간 척도 및 비율척도로 측덩된 변수들 강의 상관계수는 피어슨 산관 계수로 측정한다.
③ 스피어만 상관계수는 두 변수 간의 비선형적인 관계도 나타낼 수 있다.
④ Cor.test() 함수를 사용해 상관계수 검정을 수행하고, 유의성 거점을 판단할 수 있다.
정답: ①
종속변수에 미치는 영향력의 크기를 파악하여 독립변수의 특정한 값에 대응하는 종속 변수값을 예측하는 선형모형을 산출하는 방법은 회귀 분석이다.
[3-2-3. 다변량 분석 - #상관분석]
#상관분석
- 데이터 안의 두 변수 간의 관련성을 파악하는 방법이다.
- 상관계수는 두 변수간 관련성의 정도를 의미한다.
- Cor.test() 함수를 사용해 상관계수 검정을 수행하고, 유의성 거점을 판단할 수 있다.
#상관분석 유형
구분 | (1) 피어슨의 상관계수 | (2) 스피어만 상관계수 |
설명 | - 두 변수 간의 선형관계의 크기를 측정하는 값으로 비선형적인 관계는 나타내지 못한다. - 연속형 변수만 가능 - 대상이 되는 자료의 종류 : 등간 척도, 비율척도★ - 예. 국어 점수와 영어점수의 상관계수 |
- 두 변수 간의 비선형적인 관계도 나타낼 수 있음 - 연속형 외에 이산형 순서형도 가능 - 대상이 되는 자료의 종류 : 순서척도, 서열척도 ★ - 예. 국어성적 석차와 영어성적 석차의 상관계수 |
공식 |
3-6. 데이터마이닝 단계 중 목적 변수를 정의하고 필요한 데이터를 데이터 마이닝 소프트웨어 적용할 수 있게 데이터를 준비하는 단계는?
① 데이터 가공
② 데이터 준비
③ 검증
④ 데이터 마이닝 기법의 적용
정답: ①
데이터 가공 단계는 모델링 목적에 따라 목적변수를 정리하고 필요한 데이터를 데이터 마이닝 소프트웨어에 적용할 수 있도록 준비하는 단계이다.
[3-3-1. 데이터 마이닝 개요 - #데이터 마이닝 5단계]
#데이터 마이닝 5단계
1) 목적 정의
- 데이터 마이닝을 통해 무엇을 왜 하는지 명확한 목적을 설정해야 함
- 이해 관계자 모두가 목적에 동의하고 이해할 수 있어야 함
- 1단계부터 전문가가 참여하여 목적에 맞는 데이터 마이닝 모델, 기법, 필요 데이터를 정의하는 것이 바람직
2) 데이터 준비
- 데이터 마이닝 수행에 필요한 데이터 수집
- IT부서와의 사전 협의, 일정 조율 필요
- 데이터 준비 -> 정제, 품질보증 -> 데이터 보강 등의 작업을 거친다.
3) 데이터 가공
- 모델링 목적에 따라 변수를 정의하고, 소프트웨어 적용에 적합하도록 데이터를 가공한다.
4) 데이터 마이닝 기법의 적용
- 데이터 마이닝 기법을 적용하는 단계
- 어떤 기법을 활용하고 어떤 값을 입력하느냐 등에 따라 성과가 달라지므로 데이터분석에 대한 전문성이 필요
5) 검증
- 추출된 정보를 검증하는 단계
- 테스트 마케팅이나 과거 데이터 활용
- 검증 후에는 자동화 방안을 협의하여 업무에 적용하도록 함
- 보고서 작성 및 경영진에게 기대효과(연간 추가수익, 투자대비성과(ROI) 등)를 알림
3-7. 연관규칙의 향상도 설명이 옳은 것은?
① 향상도가 1보다 크면 이 규칙은 결과를 예측하는 데 있어서 우수하다는 것을 의미한다.
② 향상도가 1이면 두 품목은 연관성이 높다는 의미한다.
③ 향상도가 1보다 작으면 두 품목은 서로 양의 상관관계를 의미한다.
④ 지지도는 <a와 b가 동시에 포함된 거래 수 /a>를 포함한 거래수를 의미한다.
정답: ①
향상도 A가 구매되지 않았을 때 품목 B의 구매확률에 비해 A가 구매됐을 때 품목 B의 구매확률의 증가비로 향상도가 1보다 크면 해당 규칙이 결과를 예측하는데 있어 우수하다.
④번은 신뢰도
[3-3-4. 연관 분석 - #연관분석의 측도]
#향상도
- A가 주어지지 않았을 때 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율
- P(A ∩ B) / P(A) × P (B) = P(B | A) / P(B) : A와 B가 동시에 일어난 횟수 / A와 B가 독립사건일 때, A와 B가 동시에 일어날 확률
- A와 B 사이에 아무런 상호관계가 없으면 향상도는 1
- 향상도가 1보다 높을 수록 연관성이 높다.
- 즉, 향상도가 1보다 크면 B를 구매할 확률보다 A를 구매한 후 B를 구매할 확률이 더 높다는 의미
#지지도
- 전체 거래 중 항목 A, B를 동시에 포함하는 거래의 비율
- P(A ∩ B) : A와 B가 동시에 포함된 거래 수 / 전체 거래 수
3-8. R 데이터의 저장 형식 내용으로 부적절한 것은?
① mx < -matrix (c(23, 41, 12, 35, 67, 1, 24, 7, 53), nrow=3) as.vector(mx) 적용 시에 데이터는 1행부터 차례로 생성된다.
② as.interger(3, 14)의 값은 3이다.
③ as.numeric(FALSE)의 값는 0이다.
④ as.logical(0, 45)의 값은 TRUE이다.
정답: ①
행렬을 as.vector 함수에 입력하면 열방향으로 1열로부터 차례로 원소를 나열하는 벡터가 생성된다.
[3-1-1. R프로그래밍 기초 - #데이터 프레임과 데이터 구조]
기능 | R코드 |
행렬 → 벡터 | as.vector(matrix) 행렬을 as.vector 함수에 입력하면 열방향으로 1열로부터 차례로 원소를 나열하는 벡터가 생성된다.★ |
자료형 변환 |
as.character( ) as.integer( )★ (예) as.interger(3, 14)의 값은 3이다. as.logical()★ (예) as.logical(0, 45)의 값은 TRUE이다. |
3-9. 의사결정나무 결과이다. 해석으로 부적절한 것은?
① 끝 노드로 갈수로 불순도가 상승한다.
② 구조가 단순하여 해석이 용이다.
③ 수치형 또는 범주형 볌수를 모두 사용할 수 있다.
④ 선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 비모수적 모형이다.
정답: ①
뿌리마디에서 아래로 내려갈수록 각 마디에서의 불순도는 점차 감소한다.
#의사결정나무 정의와 특징
- 분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
- 의사결정나무는 분류(classification)와 회귀(regression) 모두 가능하다.
- 복잡하지 않고 빠르게 만들 수 있다.
- 분류 정확도가 좋은 편이다.
- 다중공선성 영향을 안 받는다.
장점 |
단점 |
구조가 단순하여 해석이 용이하다. |
분류기준값의 경계선 부근의 자료값에 대해서는 오차가 크다. |
선형성, 정규성, 등분산성 등의 수학적 가정이 불필요한 *비모수적 모형 |
로지스틱회귀와 같이 각 예측변수의 효과를 파악하기 어렵다. |
수치형/범주형 변수를 모두 사용할 수 있다는 점 |
새로운 자료에 대한 예측이 불안정할 수 있다. |
*비모수적 : 모수에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산
#의사결정나무의 순도(homogeneity)와 불순도(불확실성, impurity)
- 각 영역의 순도가 증가, 불순도가 최대한 감소하는 방향을 학습을 진행한다.
- 순도가 증가/불확실성이 감소하는 걸 두고 정보이론에서는 정보획득(information gain)이라고 합니다.
- 불순도 측도 : 지니지수, 엔트로피 지수, 카이제곱통계량 (오분류오차은 잘 안 쓰임)
3-10. 각 열이 서로 다른 타입의 데이터 구조가 가능한 것은?
① 데이터 프레임
② 벡터
③ 행렬
④ 스칼라
정답: ①
데이터프레임은 표 형태의 데이터 구조이며, 각 열은 서로 다른 데이터 형식을 가질 수 있다.
[3-1-1. R프로그래밍 기초 - #데이터 프레임과 데이터 구조]
# 데이터프레임(Data frame)
- 데이터 프레임 리스트의 원소는 벡터 또는 요인이다. 벡터와 요인은 데이터 프레임의 열이다.
- 벡터와 요인들은 동일한 길이이다.
- 동일한 벡터와 요인들은 데이터프레임을 사각형으로 만든다.
- 열에는 이름이 있어야 한다.
- 각각의 열에 대해 문자형인지 수치형인지 자동적으로 구분되어 편리
- 데이터프레임은 메모리 상에서 구동된다.
3-11. 비모수검정의 특징이 아닌 것은?
① 평균, 분산을 이용한 검정을 이용한다.
② 자료가 추출된 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정 방법이다.
③ 관측값들의 순위나 두 관측값 사이의 부호 등을 이용해 검정한다.
④ 모딥단의 특성을 몇 개의 모수로 결정하기 어려우며 수많은 모수가 필요할 수 있다.
정답: ①
비모수적 검정은 관측값의 절대적인 크기에 의존하지 않는 관측값들의 순위나 두 관측값 차이의 부호 등을 이용해 검정한다.
[3-2-1-4. 모수 검정 - #모수 검정]
#모수 검정
- 모집단의 모수에 대한 검정에는 모수적 방법과 비모수적 방법이 있다.
(1) 모수적 검정
- 모집단의 분포에 대한 가정을 하고, 그 가정 하에서 검정통계량과 검정통계량의 분포를 유도해 검정을 실시하는 방법
- 가설의 설정 : 가정된 분포의 모수(모평균, 모분산 등)에 대한 가설 설정
- 검정 실시 : 관측된 자료를 이용해 표본평균, 표본분산 등을 구하여 검정 실시
(2) 비모수적 검정
- 모집단의 분포에 대해 아무 제약을 가하지 않고 검정을 실시하는 검정 방법
- 비모수적 방법은 모집단에 대한 아무런 정보가 없을 때 사용하는 방법 ★
- 관측 자료가 특정분포를 따른다고 가정할 수 없는 경우에 이용 ★
- 비모수적 방법은 평균과 분산이 없고 평균 값의 차이, 신뢰구간을 구할 수 없다. ★
- 가설의 설정 : 가정된 분포가 없으므로, 단지 '분포의 형태'가 동일한지 여부에 대해 가설 설정
- 검정 실시 : 관측값의 순위나 관측값 차이의 부호 등을 이용해 검정 실시
(예) 부호검정, 순위합검정, 부호순위합검정, U검정, 런검정, 순위상관계수 등
3-12. SOM에 대한 설명이 잘못된 것은?
① SOM은 입력 변수의 위치 관계를 그대로 보존하여 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타난다.
② SOM을 이용한 용한 군집분석은 연적파 알고리즘을 사용함으로써 군집의 성능이 우수하고 수행속도가 빠르다.
③ SOM은 경쟁학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습한다.
④ SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현된다.
정답:
SOM은 역전파 알고리즘 등을 이용한 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르다. 따라서 실시간 학습 처리를 할 수 있는 모형이다.
[3-3-3-4. SOM]
#SOM의 정의 및 특징
- 차원축소와 군집화를 동시에 수행하는 기법이다.
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬해 지도의 형태로 형상화하는 것으로 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있다.
- 시각적인 이해가 쉽고, 실제 데이터가 유사하면 지도상에서 가깝게 표현돼 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보인다.
#SOM vs 신경망 모형
- 신경망 모형은 연속적인 층으로 구성된 반면, SOM은 2차원의 그리드로 구성
- 신경망 모형은 에러 수정을 학습하는 반면, SOM은 경쟁 학습을 시킴
- 신경망 모형은 역전파 알고리즘이지만, SOM은 전방패스를 사용하여 속도가 매우 빠름
- SOM은 비지도학습
3-13. 추정과 가설검정에 대한 설명으로 부적절한 것은?
① 귀무가설이 사실일 때 검정통계량이 나올 확률을 P-value라고 한다.
② 귀무가설을 기각하는 통계량의 영역을 기각역이라 한다.
③ 가장 참값이라 여겨지는 하나의 모수의 값을 점추정이라 한다.
④ 일정한 크기의 신뢰수준으로 모수가 특정한 구간에 있을 것이라 선언하는 것을 구간추정이라한다.
정답: ①
P-value는 귀무가설이 옳다는 가정하에 얻은 통계량이 귀무가설을 얼마나 지지하는 지를 나타낸 확률이다.
3-14. Bias-Variance trade off 관계에서 유연한 경우 옳은 것은?
① Bias 낮고 Variance 낮다.
② Bias 높고 Variance 낮다.
③ Bias 높고 Variance 높다.
④ Bias 낮고 Variance 높다.
정답: ③
일반적으로 학습 모형의 유연성이 클수록 Variance은 높고 Bias은 낮다.
3-15. 아래는 Chickwts 데이터셋에 대해 첨가물 그룹 간 평균 무게에 차이가 있는지 검정하기 위해 분산 분석을 한 결과 중 설명이 가장 부적절한 것은?
> summary(aov(weight~feed,chickwts))
Df Sum Mean Sq F value Pr(>F)
feed 5 231129 46226 15.36 5.94e-10 ***
Residuals 65 195556 3009
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' ''1
① 첨가물의 개수(독립변수)는 5이다.
② 귀무가설은 '첨가물 그룹 간의 평균이 모두 동일하다' 이다.
③ 위의 가설검정은 F통계량을 기반으로 한다.
④ 유의수준 0.05하에서 "첨가물 그룹 간의 무게 평균이 동일하지 않다"고 결론 내릴 수 있다.
정답: ①
자유도(df)는 (n-1)이므로 첨가물의 개수는 6이다.
3-16. 보험에서 해지할 예상 고객을 예측 시 사용할 수 있는 적절한 기법은?
① 랜덤포레스트
② 주성분분석
③ 군집분석
④ 연관분석
정답:①
랜덤포레스트 분석 기법은 데이터마이닝 방법론의 앙상블 기법 중 하나로 분류 준석 문제를 해결하기 위한 의사결정나무와 같은 방법론이지만 의사결정나무에서 과대적합/대소적합의 문제를 해결할 수 있다.
3-17. 광고 채널 분석자료이다. 내용 중 잘못된 것은?
① TV 광고와 매출액의 상관관계가 크면 당연히 인과관계도 있다고 할 수 있다.
② 공분산이 0이면 관측값들이 4면 균일하게 분포되어 있다고 추정할 수 있다.
③ 상관계수는 두 변수의 관련성의 정도를 의미한다.
④ 사용척도가 서열척도인 경우 스피어만의 상관분석을 이용한다.
정답: ①
상관분석은 두 변수 간의 관계의 정도를 알아보기 위한 분석 방법이지 상관분석으로 인과관계를 알 수 없다.
3-18. 희귀분석과 결정계수 설명이 부적절한 것은?
① 결정계수는 총 변동과 오차에 대한 변동 비율이다.
② 결정계수가 커질수록 회귀방정식의 설명력이 높아진다.
③ 결정계수는 0~1 사이의 범위를 갖는다.
④ 회귀계수의 유의성 검증은 t값과 p값을 통해 확인하다.
정답: ①
결정계수는 총 변동 중 회귀모형에 의하여 설명되는 변동이 차지하는 비율이다.
[3-2-3. 다변량 분석 - #결정계수]
#결정계수★
- 결정계수는 총 변동 중 회귀모형에 의하여 설명되는 변동이 차지하는 비율이다.★
- 결정계수가 커질수록 회귀방정식의 설명력이 높아진다.
- 결정계수는 0~1 사이의 범위를 갖는다.
- 회귀계수의 유의성 검증은 t값과 p값을 통해 확인하다.
(1) 회귀 분산분석에서, 총 제곱합(총 변동, SST) = 회귀제곱합(설명된 변동, SSR) + 오차제곱합(설명안된 변동, SSE)
(2) R^2(결정계수) = 회귀제곱합(SSR) / 총 제곱합(SST)
→ 결정계수가 클 수록 회귀방정식과 상관계수의 설명력이 높아진다.★
3-19. 귀무가설이 사실일 때 기각하는 1종 오류 시 우리가 내린 판정이 잘못되었을 때 실제 확률은?
① 유의수준
② p-value
③ 검정통계량
④ 기각역
정답: ②
p-value는 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률을 나타낸다.
[3-2-1-3. 추정과 가설검정 - #가설검정의 오류]
#가설검정의 오류
- 제1종 오류와 제2종 오류는 상충관계가 있음
- 제1종 오류의 확률을 0.1, 0.05, 0.01 등으로 고정시킨 뒤, 제2종 오류가 최소가 되도록 기각역을 설정한다.
- 기각역: 귀무가설을 기각하는 통계량의 영역
정확한 사실\가설검정 결과 |
귀무가설(H0)이 사실이라고 판정 |
귀무가설(H0)이 사실이 아니라고 판정 |
귀무가설(H0)이 사실임 |
옳은 결정 |
제 1종 오류(α) |
귀무가설(H0)이 사실이 아님 |
제2종 오류(β) |
옳은 결정 |
#p-value ★
- 귀무가설이 옳다는 가정하에 얻은 통계량이 귀무가설을 얼마나 지지하는 지를 나타낸 확률
- p-값은 0~1 사이의 값을 가지고 있고 P값은 전체 표본에서 하나의 표본이 나올 수 있는 확률 ★
- p-값이 작을수록 귀무가설을 기각할 가능성이 높아진다.
- p-값이 유의수준(α)보다 작으면 귀무가설을 기각한다.
3-20. 다음 중 회귀분석에 대한 설명으로 부적절한 것은?
① 기울기가 0이 아닌 가정을 귀무가설, 0인 가정을 대립가설로 한다.
② 일반선형회귀는 종속변수가 연속형 변수일 때 가능하다.
③ 회귀분석의 모형 검정은 F-test, t-test이다.
④ 로지스틱 회귀분석의 모형 탐색 방법은 최대우도법이다.
정답: ①
회귀식에 대한 검정은 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓는다.
[3-2-1-3. 추정과 가설검정 - #가설검정]
- 모집단에 대한 귀무가설(H0)과 대립가설(H1)을 설정한 뒤, 표본관찰 또는 실험을 통해 하나를 선택하는 과정
- 귀무가설이 옳다는 전제하에서 관측된 검정통계량의 값보다 더 대립가설을 지지하는 값이 나타날 확률을 구하여 가설의 채택여부 결정한다.
- 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓는다.
- 즉 유의수준을 평가하여 귀무가설을 채택할지 거부할지를 판단한다.
- 귀무가설(H0) : 대립가설과 반대의 증거를 찾기 위해 정한 가설 (관습적이고 보수적인 주장)
- 대립가설(H1) : 증명하고 싶은 가설 (적극적으로 우리가 입증하려는 주장)
- 유의수준(알파a): 오류를 허용할 범위
- 유의확률(p-value): 대립가설일 틀릴 확률
- p-value 값이 미리 정해놓은 유의수준 값보다 작을 경우 귀무가설은 기각되고 대립가설은 채택된다.
[3-3-2-1. 로지스틱 회귀모형 - #선형회귀분석 vs 로지스틱 회귀분석]
구분 |
일반선형 회귀분석 |
로지스틱 회귀분석 |
종속변수 |
연속형 변수 |
이산형 변수 |
모형 탐색 방법 |
최소자승법 |
1) 최대우도법, 가중최소자승법 |
모형 검정 |
F검정, t검정 |
2) 카이제곱 검정 |
1)최대우도법
- 관측값이 가정된 모집단에서 하나의 표본으로 추출된 가능성이 가장 크게 되도록 하는 회귀계수 추정방법
- 표본의 수가 클 경우에 최대우도추정법은 안정적
2) 카이제곱 검정
- 분류 조합에 따라 특정값에 유효한 차이가 발생하는 지를 검정하는 것으로 명목 척도로 측정된 두 속성이 서로 관련되어 있는지 분석하고 싶을 때 사용하는 통계분석법
- 독깁변수와 종속변수가 모두 명목척도일 경우 적합한 통계 기법
3-21. 교차판매, 물건배치 등에 이용되는 분석 기법은?
① 연관분석
② 주성분분석
③ 회귀분석
④ SOM
정답: ①
연관분석은 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위해 적용하는 분석으로 흔히 장바구니 분석 또는 서열분석이라고 불린다.
3-22. R패키지 설명으로 틀린 것은?
① data.table에서 리스트로 변경되면 ddply를 사용할 수 있다.
② data.table은 데이터 프레임과 유사하지만보다 빠른 Grouping이 가능하다.
③ ply() 함수는 앞에 두 개의 문자를 접두사로 가지는데, 첫 번째 문자는 입력하는 데이터 형태를 나타내고, 두 번째 문자는 출력하는 데이터 형태를 나타낸다.
④ reshape 패키지의 주요 기능은 melt ( )와 cast ( )가 있다.
정답: ①
data.table에서 리스트로 변경되는 dply를 사용할 수 있다.
3-23. y=c(1,2,3,NA)일 때 3*y는?
① 3, 6, 9, NA
② NA, NA, NA, NA
③ 3,6,9, NaN
④ 3,6,9,3NA
정답: ①
각 값에 3이 곱해져 3 6 9 NA가 출력된다.
3-24. 기법 활용 분야가 다른 것은?
① SOM
② 로지스틱 회귀분석
③ 신경망
④ 의사결정나무
정답: ①
SOM은 비지도 학습에 해당하고 나머지 항목은 지도학습에 해당한다.
[2-1-3. 분석 과제 발굴 - #비지도 학습과 지도 학습]
#비지도 학습과 지도 학습
구분 | 비지도학습 | 비지도학습 |
기법 | 장바구니 분석 군집 분석 연관분석 OLAP SOM ★ 주성분 분석(PCA) 기대값 최대화(EM) K-means 기술 통계 및 프로파일링 |
의사결정나무 ★ 인공신경망 ★ 회귀분석 로지스틱 회귀분석 ★ K-NN 분류분석 |
예시 | 고객의 과거 거래 구매 패턴을 분석했다. 고객이 상품을 구매할 때 동시에 구매한 상품을 분석했다. |
대출가능한 고객을 분류했다. 자동차 연비에 영향을 주는 요소를 분석했다. |
단답5. 보기의 표를 보고 정확도를 구하여라.
예측치 | |||
True | False | ||
실제값 | True | a | b |
False | c | d |
정답: (a+d)/(a+b+c+d)
정확도는 (TN+TP)/(TN+TP+FN+FP)로 계산한다.
단답6. A, B 두 점의 맨해튼 거리를 구하시오.
사람 | (키, 몸무게) |
A | (5,2) |
B | (4,3) |
정답: |2-1| + |4-5| = 1+1 = 2
맨하탄 거리를 구하는 공식은 d(x,y) = Σ|x-y|이다.
단답7. 재표본 과정에서 각 자료에 동일한 확률을 부여하지 않고, 분류가 잘못된 데이터에 더 가중을 주어 표본을 추출하는 분석 기법은?
정답: 부스팅
부스팅은 붓스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법이다.
단답8. 비정상시계열을 정상시계열로 전환하는 방법 중 현 시점의 자료값에서 전 시점의 자료값을 빼주는 것을 무엇이라 하는가?
정답: 차분
차분은 평균이 일정한 경우 현 시점의 자료에서 전 시점의 자료를 빼는 방법을 통해 비정상시계열을 정상시계열로 바꾸어주는 방법이다.
단답9. 회귀모형의 계수를 추정하는 방법으로써 잔차의 제곱합(SSR)을 최소화하는 계수를 찾는 방법을 무엇이라고 하는가?
정답: 최소자승법
최소자승법(최소제곱법)은 회귀계수를 추청하는 방법으로써 잔차제곱합(구하려는 해와 실제 해의 오차의 제곱의 합)이 최소가 되는 해를 구하는 방법이다.
#최소자승법(최소제곱법)
- 데이터와 추정된 함수가 얼마나 잘 맞는지는 잔차들을 제곱(square)해서 구한다. 이를 잔차제곱합 RSS 혹은 SSE이라고 한다.
- 최소자승법(최소제곱법)은 해당 식이 제곱형태이니 미분해서 0이 되는 지점을 찾기 위해 잔차제곱합을 최소화하는 계수를 구하는 방법이다.
단답10. 댄드로그램에서 Height 150에서 나눌 경우 군집의 수는?
정답: 2
댓글