본문 바로가기
Certificates/ADsP

[ADsP] 데이터의 가치와 미래

by Air’s Big Data 2020. 8. 21.

1. 데이터 이해 
1-1. 데이터의 이해 
1-2. 데이터의 가치와 미래 
1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 

2. 데이터 분석 기획 
2-1. 데이터 분석 기획의 이해 
2-2. 분석 마스터 플랜 

3. 데이터 분석 
3-1. R 기초와 데이터 마트 

3-2. 통계분석 

3-3. 정형 데이터 마이닝 

 

 

 

데이터와 정보

빅데이터의 이해

비즈니스 모델

위기 요인과 통제 방안

미래의 빅데이터

 

 

빅데이터의 이해

(Big data, Wikipedia)

#빅데이터의 정의

(1) 3V

- Volume (양): 데이터의 규모 측면
- Variety (다양성): 데이터의 유형과 소스 측면
- Velocity (속도): 데이터의 수집과 처리 측면

 

(2) 데이터 자체 뿐 아니라 처리, 분석 기술적 변화까지 포함되는 중간 범위의 정의가 있다.
- 새로운 처리, 저장, 분석 기술 및 아키텍처
- 클라우드 컴퓨팅 활용

 

(3) 인재, 조직 변화까지 포함해 넓은 관점에서의 빅데이터에 대한 정의가 있다.
- 새로운 인재 필요
- 데이터 중심 조직

 

 

#빅데이터의 출현배경
- 빅데이터 현상은 없었던 것이 새로 등장한 것이 아니라 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 "변화"를 말한다.

 

 

#빅데이터의 출현에 따른 변화
- 기존 방식으로는 얻을 수 없었던 통찰 및 가치 창출. 사업방식, 시장, 사회, 정부 등에서 변화와 혁신 주도

- 사용자 로그(log) 정보 (사용자가 인터넷에 접속한 시간과 정보, 검색기록 등)에 대한 프로파일링이 이루어지기 시작하면서 아이덴티티가 뚜렷해지고 사용자와 광고를 매칭하는 정확도도 향상

 

 

#빅데이터에 거는 기대를 잘 표현한 비유

 - 빅데이터는 차세대 산업혁명에서 석탄과 철 역할을 할 것으로 기대된다. 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 사회·경제·문화·생활 전반에 혁명적 변화를 가져올 것으로 기대된다.

 - 빅데이터는 21세기의 원유에 비유된다. 우리가 살고 있는 사회 저변을 떠받치는 에너지원인 원유처럼 경제 성장에 필요한 정보를 제공함으로써 산업 전반의 생산성을 한 단계 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어낼 것으로 전망된다.

 - 렌즈를 통해 현미경이 생물학 발전에 미쳤던 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것으로 기대된다.
 예) 구글의 Ngram Viewer

 - 빅데이터는 플랫폼 역할을 할 것으로 기대된다. 최근에는 다양한 서드파티 비즈니스에 빅데이터가 활용되면서 플랫폼 역할을 할 것으로 전망

 

 

#빅데이터가 만들어 내는 본질적인 변화

 - 사전처리에서 사후처리 시대로: 필요한 정보만 수집하고 필요하지 않은 정보는 버리는 시스템에서 가능한 한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.

 - 표본조사에서 전수조사로: 표본을 조사하는 기존의 지식 발견 방식이 데이터 수집 비용의 감소와 클라우드 컴퓨팅 기술의 발전으로 인해 전수조사로 변화하게 된다. 이에 따라 샘플링이 주지 못하는 패턴이나 정보를 찾을 수 있게 된다.

 - 질보다 양으로: 데이터가 지속적으로 추가될 때 양질의 정보가 오류보다 많아져 전체적으로 좋은 결과 산출에 긍정적인 영향을 미친다는 추론에 바탕을 두고 변화된다.

 - 인과관계에서 상관관계로: 상관관계를 통해 특정 현상의 발생 가능성이 포착되고, 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어나 데이터 기반의 상관관계 분석이 주는 인사이트가 인과관계에 의해 미래 예측을 점점 더 압도해 가는 시대가 도래하게 될 것으로 전망된다.

 

 

 

비즈니스 모델

#빅데이터 활용 기본 테크닉

 - 연관규칙학습은 어떤 변수들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법이다.

 - 유형분석(분류)은 문서를 분류하거나 조직을 그룹으로 나눌 때, 혹은 온라인 수강생들을 특성에 따라 분류할 때 사용한다.

 - 기계 학습은 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법이다.

 - 회귀 분석은 독립변수와 종속변수의 관계를 파악할 때 사용한다.

 - 감정 분석은 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석한다.

 - 소셜 네트워크 분석은 특정인과 다른 사람이 몇 촌정도의 관계인가를 파악할 때 사용하고 영향력 있는 사람을 찾아낼 때 사용한다.

 - 유전자 알고리즘은 최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화시켜 나가는 방법이다.

 

 

위기 요인과 통제 방안

#사생활 침해 → 동의에서 책임으로
- 빅데이터에 의한 사생활 침해 문제를 해결하기에는 부족한 측면이 많아 좀 더 포괄적인 해결책으로 동의제를 책임제로 바꾸는 방안을 제안한다.

 

 

#책임 원칙 훼손 → 결과 기반 책임 원칙 고수
- 빅데이터 기본 분석과 예측 기술이 발전하면서 정확도가 증가한 만큼, 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성도 올라간다. 책임 원칙 훼손 위기 요인에 대한 통제 방안으로는 기존의 책임 원칙을 좀 더 보강하고 강화한다.

 

 

#데이터 오용 → 알고리즘 접근 허용
- 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에 이를 바탕으로 미래를 예측하는 것은 적지 않은 정확도를 가질 수 있지만 항상 맞을 수는 없다. 또한 잘못된 지표를 사용하는 것도 빅데이터의 폐해가 될 수 있다. 대응책으로 알고리즘에 대한 접근권을 제공하여 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문한다.

 

 

미래의 빅데이터

#미래의 빅데이터

 - 데이터 사이언티스트는 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업 능력을 두루 갖춘 전문 인력

 - 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자 전문가 역할을 할 것으로 기대

 

(참고 사이트)

https://0utlier.tistory.com/39

댓글