본문 바로가기
시험\자격증\Skills/데이터분석 준전문가(ADsP)

데이터 분석 준전문가 자격증 시험_#1-2. 데이터의 가치와 미래

by 하찮이 2020. 8. 12.

 

 

데이터 이해 과목의 두 번째 장인 데이터의 가치와 미래 요약 정리. 

 

 

▼ 데이터분석 준전문가 시험 과목 및 내용은 아래 접은 글 참고

더보기

과목 1_데이터 이해 

1장. 데이터의 이해

 

  • 데이터와 정보
  • 데이터베이스의 정의와 특징
  • 데이터베이스 활용

2장. 데이터의 가치와 미래

  • 빅데이터의 이해
  • 빅데이터의 가치와 영향
  • 비즈니스 모델
  • 위기 요인과 통제 방안
  • 미래의 빅데이터

3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

  • 빅데이터분석과 전략 인사이트
  • 전략 인사이트 도출을 위한 필요 역량
  • 빅데이터 그리고 데이터 사이언스의 미래

과목 2_데이터분석 기획 

1장. 데이터분석 기획의 이해

  • 분석 기획 방향성 도출
  • 분석 방법론
  • 분석 과제 발굴
  • 분석 프로젝트 관리 방안

2장. 분석 마스터 플랜

  • 마스터 플랜 수립
  • 분석 거버넌스 체계 수립

과목 3_데이터분석 

1장. R기초와 데이터 마트

 

  • R기초
  • 데이터 마트
  • 결측값 처리와 이상값 검색

2장. 통계분석

  • 통계학 개론
  • 기초 통계분석
  • 다변량 분석
  • 시계열 예측

3장. 정형 데이터 마이닝

  • 데이터 마이닝 개요
  • 분류분석(Classification)
  • 군집분석(Clustering)
  • 연관분석(Association Analysis)

 


빅데이터의 이해

빅데이터의 정의

  • 규모: 일반적인 데이터베이스 소프트웨어로 저장/관리/분석 가능 범위 초과
  • 분석 비용/기술 : 다양한 종류의 대규모 데이터로부터 저렴하게 가치를 추출하고, 데이터의 초고속 수집/발굴/분석 지원 위해 고안된 차세대 기술&아키텍쳐
  • 사회/정치/경제/문화적 변화 : 작은 용량에서는 어려운 새로운 통찰/가치 추출

 

3V와 4V

3V : 빅데이터는 기존 데이터에 비해 양(Volume), 다양성(Variety)처리속도(Velocity) 측면에서 더 광범위한 데이터 특성을 가짐.

4V : 3V 특성 외에 빅데이터 분석을 통해 새로운 부가 가치(Value)를 창출할 수 있는 정보를 추출 가능.

 

 

데이터의 양 표현 단위 : 기가바이트(GB) < 테라바이트(TB) < 페타바이트(PB) < 엑사바이트(EB) < 제타바이트(ZB)

 

빅데이터의 출현 배경

  • 산업계 : 고객 데이터 축적
  • 학계: 거대 데이터 활용 과학 확산
  • 관련기술 발전 : 디지털화, 저장기술 발전, 인터넷 발전, 클라우드 컴퓨팅
데이터 규모는 EB(Exe Byte)에서 ZB(Zetta Byte)로, 데이터 유형은 정형데이터 > 비정형데이터 > 사물정보&인지정보 순으로 변화함. 구조화된 데이터에서 다양성, 복합성, 소셜 데이터로, 최근에는 현실성, 실시간성 데이터로 데이터의 특성이 바뀜.
맵리듀스 : 클라우드 분산 병렬처리 컴퓨팅 중 빅데이터와 같은 대용량 데이터 처리비용을 획기적으로 줄인 방식

 

빅데이터의 기능

  • 산업혁명의 석탄, 철 : 제조업 외 서비스 분야의 생산성 획기적 증가
  • 21세기 연유 : 사회 지반을 떠받치는 에너지원(비즈니스/경제 성장에 필요정보 제공, 산업전반 생산성 향상 등)
  • 렌즈 : 필요한 부분을 확대해서 볼 수 있도록 함.
  • 플랫폼 : 공동활용의 목적으로 구축된 유무형의 구조물 역할

 

빅데이터로 인한 본질적 변화

  • 사전처리 → 사후처리
  • 표본조사 전수조사
  • 데이터의 질 데이터의
  • 인과관계 상관관계

 

소셜그래프(Social Graph) : 전세계 사람들이 서로 어떻게 연결되어 있는지 지도화한 것

 


빅데이터의 가치와 영향

빅데이터 가치산정이 어려운 이유

  • 데이터 활용 방식 : 재사용, 재조합(mashup), 다목적용 개발
  • 새로운 가치 창출
  • 분석 기술 발전으로 거대한 가치 생성

 

빅데이터의 영향

: 생활 전반의 스마트화

  • 기업 : 비즈니스 혁신, 경쟁력 제고, 생산성
  • 정부 : 환경 탐색, 상황 분석, 미래 대응
  • 개인 : 경제력 있는 개인들의 활용사례 늘어남

 


비즈니스 모델

빅데이터 활용 기본 테크닉

  1. 연관규칙 학습 : 변인 간에 주목할 만한 상관관계가 있는지 찾아내는 방법. 상관관계 높은 상품을 함께 진열하기 위한 목적 등으로 사용.
  2. 유형 분석 : 사용자 특성별로 집단을 분류할 때 사용. 문서나 수강생 분류 등에 사용.
  3. 유전자 알고리즘 : 최적화가 필요한 문제의 해결책을 점진적으로 진화시켜 나가는 방법. 자연선택, 돌연변이 등의 메커니즘 활용.
  4. 머신러닝(기계학습) : 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 일에 초점을 맞춤. 스팸메일 분류, 사용자 기호 기반 콘텐츠 추천 등에 사용.
  5. 회귀분석 : 독립변수와 종속변수 간의 관계(영향도) 파악. 사용자 만족도 영향요인 분석 등에 사용
  6. 감정분석 : 특정 주제에 대해 말하거나 쓴 사람의 감정을 분석. 긍정어/부정어 분석 등에 사용.
  7. 소셜네트워크(사회관계망) 분석 : 특정인과 다른 사람들이 어느 정도의 관계인지 파악. 영향력 있는 사람 찾을 때 사용.

 

딥 러닝(Deep Learning) : 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합. 큰 틀에서 사람의 사고방식을 컴퓨터에게 가르치는 기계학습의 한 분야

 


위기 요인과 통제 방안

위기 요인

  • 사생활 침해 : M2M 시대로 정보수집센서 증가, 스마트 홈 및 스마트 그리드 일상화
  • 책임 원칙 훼손 : 예측 알고리즘 피해 사례 발생
  • 데이터 오용 : 주어진 데이터에서 잘못된 인사이트 획득 시 비즈니스에 손실 초래

 

M2M(Machine to Machine) : 사물통신. ‘사람과 사물’, ‘사물과 사물’간 지능통신 서비스를 언제 어디서나 안전하고 편리하게 실시간 이용
스마트 그리드(Smart Grid) : 전기의 생산, 운반, 소비 과정에 정보통신기술을 접목하여 공급자와 소비자가 서로 상호작용함으로써 효율성을 높인 지능형 전력망시스템
익명화(anoymizaion) : 식별 데이터 집합과 개인 데이터 주체 간의 연관성을 제거하는 프로세스
비식별(de-identification) 기술 : 데이터 주체의 신원을 모호하게 하는 목적으로 데이터 의미를 조작하는 기법. 가명화(개인식별에 중요한 데이터를 식별할 수 없는 다른 값으로 변경), 총계처리(개별 데이터 값 대신 데이터의 총합값을 보여줌), 데이터 마스킹(데이터의 원래 특징은 유지한 채로 민감도를 낮춤), 범주화(데이터 값을 범주의 값으로 변환하여 감춤) 등.
구글의 페이지 랭크 알고리즘 : 특정 페이지를 인용하는 다른 페이지의 수를 세는 방식으로 특정 페이지 중요도 계산

 

통제 방안

  • 개인정보 동의제를 개인정보 책임제로 전환
  • 결과 기반 책임 원칙 고수 : 특정인의 성향이 아닌 행동결과를 기준으로 판단. 예측자료로 인한 피해 가능성 최소화 장치 마련 필요.
  • 알고리즘 접근 허용 : 데이터 오용의 요소에 대한 대응책.

 


미래의 빅데이터

  • 데이터 : 사물인터넷 발전으로 모든것의 데이터화
  • 기술 : 진화하는 알고리즘, 인공지능
  • 인력
    • 데이터 사이언티스트 : 빅데이터의 다각적 분석을 통해 인사이트 도출하고, 이를 조직의 전략방향 제시에 활용할 줄 아는 기획자, 전문가
    • 알고리즈미스트 : 데이터 사이언티스트의 일로 발생될 수 있는 부당한 피해 예방 위해 필요
데이터 사이언티스트의 역량과 조건
하드 스킬 : 빅데이터에 대한 이론적 지식 + 빅데이터 분석 기술의 숙련
소프트 스킬 : 통찰력 있는 분석 + 설득력 있는 전달 + 다분야간 협력(협업능력)
데이터 웨어하우스 : 사용자의 의사 결정에 도움을 주기 위하여, 주제중심적으로 통합적이며 시간성을 가지는 비휘발성 데이터의 집합
데이터 레이크 : 별도로 정제되지 않은 자연스러운 상태의 아주 큰 데이터 세트
분산컴퓨팅 : 분산 시스템을 연구하는 컴퓨터 과학의 한 분야로, 인터넷에 연결된 여러 컴퓨터들의 처리 능력을 이용하여 메시지를 하나에서 다른 하나로 보냄으로써 거대한 계산 문제를 해결하려는 분산처리 모델이다
맵리듀스 : 클라우드 분산 병렬처리 컴퓨팅 중 빅데이터와 같은 대용량 데이터의 처리 비용을 획기적으로 줄인 방식
스마트 팩토리 : 공장 내 설비와 기계에 사물인터넷이 설치되어 공정데이터가 실시간으로 수집되고 데이터에 기반한 의사결정이 일어남으로써 생산성을 극대화할 수 있는 기술

 

댓글