1. 빅데이터가 만들어 내는 본질적인 변화
- 사전처리에서 시대로: 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.
- ____에서 전수조사로: 표본을 조사하는 기존의 지식 발견 방식이 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 인해 전수조사로 변화하게 된다. 이에 따라 샘플링이 주지 못하는 패턴이나 정보를 찾을 수 있게 된다.
- 질보다 양으로: 데이터가 지속적으로 추가될 때 양질의 정보가 오류보다 많아져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 변화된다.
- 인과관계에서 _____로: 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.
정답: 사후처리, 표본조사, 상관관계
2. 빅데이터 현상이 출현하게 된 배경
- M2M, IoT와 같은 ___ 기술의 발전
- 하둡 등 ___ 기술의 발전
- 트위터, 페이스북 등 ___의 급격한 확산
정답: 통신, 분산처리, SNS
3. 데이터베이스의 설계 절차
- 요구사항 분석 > ___ 설계 > ___ 설계 > ___ 설계
정답: 개념적, 논리적, 물리적
4. "커피를 구매하는 사람이 탄산음료를 더 많이 구입하는가?"에 대한 문제를 해결하는 분석 기법?
- ____ 학습
정답: 연관 규칙
5. 아래는 어떤 분석에 대한 설명인가?
- 주관적 평가를 측정
- 주로 문장이나 단어가 분석의 대상
- 특정 주제에 대한 긍정/부정 의견 분석
정답: 감성분석
6. 아래는 무슨 정보시템에 대한 설명인가?
- 기업 내부 데이터베이스를 기반으로 고객과 관련된 내·외부 자료를 분석·통합해 고객 중심 자원을 극대화하고 이를 토대로 고객 특성에 맞게 마케팅 활동을 계획·지원·평가하는 과정이다.
정답: CRM
7. 아래 내용은 무슨 기법에 대한 설명인가?
- 데이터 마스킹 : 데이터를 익명으로 생성 (홍**, **대학)
- 가명처리 : 다른 값으로 대체 (홍국돈, 항곡대학)
- 총계처리 : 총합 값으로 대체 (키 합:750cm, 평균키:185cm)
- 데이터값 삭제 : 개인식별에 중요한 값 삭제 (90년대 생, 남자)
- 데이터 범주화 : 범주의 값으로 변환 (홍씨, 30~40세)
정답: 비식별화
8. 센서데이터는 어떤 유형의 데이터인가?
정답: 반정형
9. 다음은 CRISP-DM 프로세스 중 어떤 단계의 Task인가?
___ : 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
___ : 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
정답: 모델링, 평가
10. 분석 프로젝트 관리 주요 항목 중 시간과 품질의 대한 설명이다. 빈칸에 들어갈 말은?
- 시간 : 데이터 분석 프로젝트는 초기에 의도했던 모델이 쉽게 나오지 않기 때문에 지속적으로 반복되어 많은 시간이 소요될 수 있음. 분석 결과에 대한 품질이 보장된다는 전제로 ___ 기법으로 일정관리를 진행하는 것이 필요함.
- 품질 : 분석 프로젝트를 수행한 결과에 대한 품질목표를 사전에 수립하여 확정해야 함. 프로젝트 품질은 품질통제와 품질보증으로 나누어 수행되어야 함. 품질을 평가하기 위해서 ___를 활용할 수 있다. ★
정답: Time Boxing, SPICE
11. 다음은 정확도와 정밀성에 대한 설명이다. 빈칸에 들어갈 말은?
- Accuracy는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고 Precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로 일관적으로 동일한 결과를 제시한다는 것을 의미한다.
- 분석의 활용적인 측면에서는 Accuracy가 중요하며, 안정성 측면에서는 Precision이 중요하다. 그러나 Accuracy와 Precision은 Trade-off가 되는 경우가 많기 때문에 모델의 해석 및 적용 시 사전에 고려해야 한다.
정답: Trade-off
12. BI와 비교하여 ____에 대한 키워드는?
- Information, Ad hoc Report, Alerts, Clean Data
정답: 빅데이터 분석
13. 분석 주제 유형 중 분석 방법을 알지 못하는 경우 수행하는 유형은?
정답: Solution
14. 데이터 분석 과제를 추진할 때 고려해야 하는 우선순위 평가 기준
(1)____: 전략적 중요도와 목표 가치
(2)____: 데이터 생성, 저장, 가공, 분석 비용
정답: 시급성, 난이도
15. CRISP-DM 분석 방법론에서 ___에 해당하는 task:
- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
정답: 업무이해
16. 아래 내용은 어떤 데이터 분석을 위한 조직 구조에 대한 설명인가?
- 전사 분석업무를 별도의 분석전담조직이 담당
- 전략적 중요도에 따라 분석조직이 우선순위를 정해 진행 가능
- 현업업무 부서의 분석업무와 이중화/이원화 가능성이 높음
정답: 집중구조
17. 다음 내용은 무슨 연속형 확률 변수인가?
______
: 두 집단의 평균이 동일한 지 확인하기 위해 검정통계량으로 활용
: 정규 분포의 평균을 측정할 때 주로 사용되는 분포로 두 집단의 평균 차이 검증 등에 활용되는 분포
정답: t-분포
18. 개별 사건이 두 가지 경우만 존재하며, 각 사건이 성공할 확률이 일정하고 전/후 사건에 독립적인 특수한 상황의 확률 분포를 나타낸 것은?
정답: 베르누이 확률 분포
19. ______(H1) : 증명하고 싶은 가설 (적극적으로 우리가 입증하려는 주장) ★
정답: 대립가설
20. 표본들이 서로 관련되어 있는 경우 짝지어진 두 개의 관찰치들의 크고 작음을 표시하여 그 개수를 가지고 두 분포의 차이가 있는지에 대한 가설을 검증하는 방법은?
정답: 부호 검정(sign test)
21. Right-skewed, Prositive-skewed distribution(오른쪽으로 긴 꼬리를 갖는 분포)의 중앙값, 평균, 최빈값을 작은 순대로?
정답: Mode(최빈값) < Median(중앙값) < Mean(평균)
22. 아래는 상관계수 유형에 대한 설명인가?
- 두 변수 간의 비선형적인 관계도 나타낼 수 있음
- 연속형 외에 이산형 순서형도 가능
- 대상이 되는 자료의 종류 : 순서척도, 서열척도
- 예. 국어성적 석차와 영어성적 석차의 상관계수
정답: 스피어만 상관계수
23. 입력층이 직접 출력층에 연결되는 단층신경망에서 활성함수를 ____로 사용하면 로지스틱 회귀 모형과 작동 원리가 유사해진다.
정답: 시그모이드
24. ___ 모형의 특징
- 여러 개의 분류모형에 의한 결과를 종합하여 분류의 정확도를 높이는 방법
- 분리 분석의 과적합을 줄이기 위해 개발
- 적절한 표본추출법으로 여러 개의 훈련용 데이터를 만들고, 훈련용 데이터마다 하나의 분류기를 만들어 앙상블하는 방법
- 여러 모형의 결과를 결합함으로써 단일 모형으로 분석했을 때보다 신뢰성 높은 예측값을 얻을 수 있다.
- 각 모형의 상호 연관성이 높을수록 정확도가 감소한다.
- 모형의 투명성이 떨어져 원인 분석에는 적합하지 않다.
- 이상값에 대한 대응력이 높아진다.
- 전체적인 예측값의 분산을 감소시켜 정확도를 높을 수 있다.
정답: 앙상블
25. 의사결정나무을 앙상블하는 방법 중 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 데이터 집합에 대해 모형을 생성한 후 결합하는 방식은?
정답: 랜덤포레스트
26. 분류 모형을 구성하는 경우 예측 실패의 비용이 큰 분류 분석의 대상에 대한 관측치가 현저히 부족하여 모형이 제대로 학습되지 않는 문제는?
정답: 범주불균형의 문제
27. 정확도와 재현율의 가중조화평균(weight harmonic average)을 ___라고 한다.
정답: F점수
28. F베타지표에서 베타가 2인 경우, ____에 2배만큼의 가중치를 부여하여 조화평균을 하는것이다.
정답: 재현율
29. 역전파를 진행함에 따라 각 노드를 연결하는 가중치의 절대값이 커져 조정이 더 이상 이루어지지 않아 과소 적합이 발생하는 문제는?
정답: 포화문제
30. 군집의 밀도정도를 계산하는 방법으로 군집 내의 거리와 군집 간의 거리를 기준으로 군집 분할의 성과를 평가하는 것은?
정답: 실루엣 계수
31. 이상값 탐지(detection)
- (기하평균 - 2.5 * 표준편차 < data < 기하평균 + 2.5 * 표준편차)의 범위를 벗어나는 값
- (-____ * IQR(Q3-Q1) < data < ____* IQR)의 범위를 벗어나는 값
정답: 1.5
32. 군집 모형 중 군집 개수를 미리 지정하지 않아도 되는 장점으로 탐색적 분석에 사용하는 모형은?
정답: 계층적 군집
33. K-평균군집은 단순하고 빠르게 수행될 수 있지만 변수의 크기에 영향을 받음에 따라 군집 분석을 수행하기 전에 정규화가 필수적이다. 정규화 방법 중 원(raw) 데이터의 분포를 유지하면서 정규화가 가능한 방법은?
정답: min-max 정규화
34. F1 Score 계산 공식
정답: 2*((Precision∗Recall)/(Precision+Recall))
35. 아래 오분류표에 대한 F1은 얼마인가?
예측치 | 합계 | |||
True | False | |||
실제값 | True | 30 | 70 | 100 |
False | 60 | 40 | 100 | |
합계 | 90 | 110 | 200 |
정답: 3/8
36. 행렬(A, B, C, A, C, C, A, D) 있을 경우 지니계수 구하는법
정답: 1-(3/8)^2-(1/8)^2-(3/8)^2-(1/8)^2 = 0.69
37. 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법은?
정답: 다차원 척도법
38. 군집내의 오차제곱합에 기초하여 군집을 수행하는 군집간의 거리 측정 방법은?
정답: 와드연결법
39 연관규칙의 측정 지표중 도출된 규칙의 우수성을 평가하는 기준으로 두 품목의 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표는?
정답: 향상도
40. 의사결정나무에서 더 이상 분기가 되지 않고 현재의 마디가 끝마디가 되도록 하는 규칙은?
정답: 정지규칙
'Certificates > ADsP' 카테고리의 다른 글
제 27회 ADsP 합격 (feat. 턱걸이) (0) | 2020.12.29 |
---|---|
[ADsP] 1과목~3과목 개념 정리 (14) | 2020.11.18 |
[ADsP] 데이터마트 (0) | 2020.08.23 |
[ADsP] R 프로그래밍 기초 (0) | 2020.08.23 |
[ADsP] 주성분 분석 (0) | 2020.08.22 |
댓글