본문 바로가기
시험\자격증\Skills/데이터분석 준전문가(ADsP)

데이터 분석 준전문가 자격증 시험_#1-1. 데이터 이해

by 하찮이 2020. 8. 12.

 

 

3개의 장으로 구성된 데이터 이해 과목의 1장, 데이터의 이해 요점 정리를 해 보았다. 시험 출제 비중은 작지만, 쉬운 내용이니 실수해서 아까운 점수를 놓치지 않도록 핵심은 알아두는 게 좋을 것 같다.

 

▼ 데이터분석 준전문가 시험 과목 및 내용은 아래 접은 글 참고

 

더보기

과목 1_데이터 이해 

1장. 데이터의 이해

 

  • 데이터와 정보
  • 데이터베이스의 정의와 특징
  • 데이터베이스 활용

2장. 데이터의 가치와 미래

  • 빅데이터의 이해
  • 빅데이터의 가치와 영향
  • 비즈니스 모델
  • 위기 요인과 통제 방안
  • 미래의 빅데이터

3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

  • 빅데이터분석과 전략 인사이트
  • 전략 인사이트 도출을 위한 필요 역량
  • 빅데이터 그리고 데이터 사이언스의 미래

과목 2_데이터분석 기획 

1장. 데이터분석 기획의 이해

  • 분석 기획 방향성 도출
  • 분석 방법론
  • 분석 과제 발굴
  • 분석 프로젝트 관리 방안

2장. 분석 마스터 플랜

  • 마스터 플랜 수립
  • 분석 거버넌스 체계 수립

과목 3_데이터분석 

1장. R기초와 데이터 마트

 

  • R기초
  • 데이터 마트
  • 결측값 처리와 이상값 검색

2장. 통계분석

  • 통계학 개론
  • 기초 통계분석
  • 다변량 분석
  • 시계열 예측

3장. 정형 데이터 마이닝

  • 데이터 마이닝 개요
  • 분류분석(Classification)
  • 군집분석(Clustering)
  • 연관분석(Association Analysis)

 


데이터(data)

  • 객관적 사실이라는 존재적 특성 + 추론/예측/전망/추정을 위한 근거로 기능하는 특성
  • 잠재고객 대상 수요조사시, 위를 위한 데이터 수집/축적/분석/보고서작성의 일련의 가치창출과정에서 가장 기초를 이룸.

 

데이터의 유형

유형

특징

형태

정성적 데이터

1. 정해진 형식/형태 x

2. 저장/검색/분석에 비용 큼

언어, 문자 등

설문조사의 주관식 응답, 소셜미디어 리뷰, 기상특보 등

정량적 데이터

1. 수치로 명확하게 표현

2. 데이터 양과 상관없이 저장/검색/분석 편리

숫자, 도형, 기호 등

지역별 온도, 풍속, 강우량, 풍향, 습도 등

 

암묵지 vs 형식지

  • 아래와 같은 암묵지와 형식지의 상호작용(순환)을 통해 조직의 지식 증대
    • 개인에게 내면화된 지식을 조직에게 공통화
    • 개인의 암묵지를 표출화하고, 다시 본인의 지식에 연결화

암묵지

형식지

학습/체험/경험 통한 무형의 지식

체화된 지식으로 지식 전달/공유 어려움

형상화된 지식

지식 전달/공유 매우 용이

예) 자전거 타기, 메이크업

예) 교과서, 매뉴얼, 비디어

 

 

DIKW 피라미드

  • 데이터, 정보, 지식을 통해 지혜를 얻는 과정을 계층 구조로 설명
  • 데이터의 추론/예측/전망/추정을 위한 근거로서의 기능적(당위적) 특성에 주목

 

 

계층 정의
지혜 근본적 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 A회사의 다른 상품이 B회사의 것보다 보다 쌀 것이다
지식 상호연결된 정보 패턴을 이해하여, 이를 토대로 예측한 결과물 더 저렴한 A회사 제품을 사야겠다
정보 가공한 데이터로, 상관관계간 이해를 통해 패턴 인식 및 의미 부여 A회사가 더 싸다
데이터 타 데이터와 상관관계가 없는 가공 전의 수치나 기호(존재 형식 불문) A회사 제품은 1만원, B회사는 3만원

 

 


데이터베이스(database)

: 대용량의 데이터를 저장/관리/검색/이용할 수 있는 컴퓨터 기반의 데이터베이스.

국내 저작권 법에서는 기술 기반의 저작물로 인정함
국내 데이터분석 전문가 가이드에서는 상호관련된 다수 콘텐츠를 정보 처리/통신 기기에 의해 체계적으로 수집/축척하여 다양한 용도/방법으로 이용할 수 있도록 처리한 정보의 집합체로 정의
 * 콘텐츠: 다양한 의미전달매체에 의해 표현된 인식가능한 모든 자료(데이터, 정보, 지식, 저작물 등)
DMBS(Database Management System) : 이용자가 데이터베이스를 쉽게 구축/유지할 수 있도록 하는 소프트웨어
데이터베이스 시스템 : 데이터베이스 + DBMS

 

데이터베이스의 역사

  • 50년대 '데이터의 기지' : 미군 군비상황 관리 위한 컴퓨터 도서관을 설립. 
  • 60년대 '대량의 데이터를 축적하는 기지' : SDC 주최 심포지엄에서 공식 사용. 
  • 70년대 : 유럽, 미국에서 일반화/상용화됨.
한국은 70년대 미국 CAC가 한국과학시술정보센터를 통해 서비스되며 이용 시작. 초기엔 자기테이프 형태로 배치(batch, 일괄처리) 방식으로 제공 80년대부터 본격적인 데이터베이스 활용

 

 

데이터베이스의 일반적 특성 ★★★

  1. 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장매체에 저장
  2. 통합된 데이터 : 데이터 중복이 없음
  3. 공용 데이터 : 여러 사용자가 서로 다른 목적으로 공동으로 이용함. 대용량화, 복잡한 구조화.
  4. 변화하는 데이터 : 데이터 삽입/삭제/갱신으로 항상 변화하면서 항상 현재의 정확한 데이터 유지

 

데이터베이스의 측면별 특성

구분 특성
정보의 축적/전달 측면 기계 가독성, 검색 가능성, 원격 조작성
정보 이용 측면 다양한/원하는 정보를 신속/정확/경제적으로 찾아낼 수 있음
정보 관리 측면 일정한 질서/구조에 따라 체계적으로 정보 정리/저장/검색/관리
정보기술 발전의 측면 정보처리/검색/관리 소프트웨어, 관련 하드웨어, 정보전송 네트워크 기술 발전 견인 가능
경제, 산업 측면 경제/산업/사회 활동의 효율성 제고 및 국민 편의 증진 수단

 

 


데이터베이스의 활용

기업 내부 활용

  • 1990년대: 기업경영 전반 모든 자료를 연계하여 일관된 체계로 구축/운영하여 경영활동의 기반이 되는 전사 시스템으로 확대
    • 90년대 중반 이전 : 단순 자동화에 치중OLTP(Online Transaction Processing) 시스템. 정보 수집 중심. 경영정보시스템(MIS)
    • 90년대 중반 이후 : 단순 정보 수집 탈피. 분석 중심 시스템 구축. OLAP(Online Analytical Processing) 시스템.
  • 2000년대 : CRM(고객관계관리)SCM(공급망 관리)가 주요 화두로 바뀜
    • CRM(Consumer Relationship Management) : 고객별로 구매 이력 데이터베이스를 분석 후 고객 이해를 바탕으로 마케팅 전략 펼침
    • SCM(Supply Chain Management) : 기업이 외부 공급업체/제휴업체와 통합된 정보시스템으로 연계하여 시간/비용 최적화

 

OLAP : 다차원의 데이터를 대화식으로 분석하기 위한 기술
BI(Business Intelligence) : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
Business Analytics : 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
데이터 마이닝(Data Mining) : 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정

 

KMS(Knowledge Management System, 지식경영시스템) :  지식을 창출, 저장, 전이, 적용하려고 조직에서 개발한 일련의 비즈니스 프로세스를 말한다. 지식경영은 환경에서 학습하고 지식을 비즈니스 프로세스에 통합하는 조직의 능력을 향상 시킨다.
ERP(Enterprise Resource Planning, 전사적자원관리)

 

 

산업부분별 활용

산업부분

기존

변화 모습(2000년대 기점)

제조

1. 기업별 고유 시스템 형태
2. 부품테이블/재고관리 영역 중심

1. 솔루션 유형으로 발전
2. 부품 설계/제조/유통 전공정으로 확대(
내부 정보시스템을 웹환경으로 전환, SCM으로 기능 확장 등)

금융

80년대 외환위기 이후 업무 프로세스 효율화, e비즈니스 활성화, 금융권 총합 시스템 구축이 크게 확산

1. EAI, ERP, e-CRM 등의 시스템 구축

2. 최근 차세대 프로젝트 등 대형 프로젝트 마무리되어, 향후 EDW(Enterprise Data Warehouse) 확장이 시장 확대 기여 예상

유통

 

1. CRM, SCM 외에 각종 인프라 및 KMS(Knowledge Management Systme) 위한 별도 백업시스템 구축

2. 체계적인 고객 정보 수집/분석, 상권분석 등으로 심화

3. 전자태그(RFID) 파급효과 전망

 

전자태그(RFID) : 사물과 주변 정보 접촉 없이도 무선 주파수로 전송/처리 가능한 인식기술. 별도 장비가 필요하고 주파수 의존성이 높은 기술적 한계로 기업이 주로 활용
QR코드 : 누구나 쉽게 제작/유통 가능하지만, 전자태그에 비해 보안/안전 취약하고 복수인증이 어려운 게 단점

 

사회기반구조로서 활용

: 90년대 전반엔 정부부처 중심으로 부가가치통신망(VAN)을 통한 정보망이 구축되다가, 90년대 후반부터 EDI, CALS 등에서 벗어나 지리/교통 부문의 데이터베이스 구축 시작됨. 2000년대에는 지리/교통 데이터베이스 고도화 외에 의료/교육/행정 등으로 공공 DB 구축 확대.

 

VAN(Value Added Network) : 부가가치통신망. 독자적인 네트워크로, 단순한 통신이 아니라 부가가치가 높은 서비스
EDI(Electronic Data Intercharge) : 무역에 필요한 각종 서류(주문서, 납품서 등)를 표준화된 양식을 통해 전자 신호로 바꿔 컴퓨터 통신망을 이용해 거래처에 전송하는 시스템
CALS(Commerce At Light Speed) : 전자상거래 구축을 위해 제품의 라이프 사이클 전반에 관련된 데이터를 통합한 경영통합정보시스템

 

댓글