3개의 장으로 구성된 데이터 이해 과목의 1장, 데이터의 이해 요점 정리를 해 보았다. 시험 출제 비중은 작지만, 쉬운 내용이니 실수해서 아까운 점수를 놓치지 않도록 핵심은 알아두는 게 좋을 것 같다.
▼ 데이터분석 준전문가 시험 과목 및 내용은 아래 접은 글 참고
과목 1_데이터 이해
1장. 데이터의 이해
- 데이터와 정보
- 데이터베이스의 정의와 특징
- 데이터베이스 활용
2장. 데이터의 가치와 미래
- 빅데이터의 이해
- 빅데이터의 가치와 영향
- 비즈니스 모델
- 위기 요인과 통제 방안
- 미래의 빅데이터
3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
- 빅데이터분석과 전략 인사이트
- 전략 인사이트 도출을 위한 필요 역량
- 빅데이터 그리고 데이터 사이언스의 미래
과목 2_데이터분석 기획
1장. 데이터분석 기획의 이해
- 분석 기획 방향성 도출
- 분석 방법론
- 분석 과제 발굴
- 분석 프로젝트 관리 방안
2장. 분석 마스터 플랜
- 마스터 플랜 수립
- 분석 거버넌스 체계 수립
과목 3_데이터분석
1장. R기초와 데이터 마트
- R기초
- 데이터 마트
- 결측값 처리와 이상값 검색
2장. 통계분석
- 통계학 개론
- 기초 통계분석
- 다변량 분석
- 시계열 예측
3장. 정형 데이터 마이닝
- 데이터 마이닝 개요
- 분류분석(Classification)
- 군집분석(Clustering)
- 연관분석(Association Analysis)
데이터(data)
- 객관적 사실이라는 존재적 특성 + 추론/예측/전망/추정을 위한 근거로 기능하는 특성
- 잠재고객 대상 수요조사시, 위를 위한 데이터 수집/축적/분석/보고서작성의 일련의 가치창출과정에서 가장 기초를 이룸.
데이터의 유형
유형 |
특징 |
형태 |
예 |
정성적 데이터 |
1. 정해진 형식/형태 x 2. 저장/검색/분석에 비용 큼 |
언어, 문자 등 |
설문조사의 주관식 응답, 소셜미디어 리뷰, 기상특보 등 |
정량적 데이터 |
1. 수치로 명확하게 표현 2. 데이터 양과 상관없이 저장/검색/분석 편리 |
숫자, 도형, 기호 등 |
지역별 온도, 풍속, 강우량, 풍향, 습도 등 |
암묵지 vs 형식지
- 아래와 같은 암묵지와 형식지의 상호작용(순환)을 통해 조직의 지식 증대
- 개인에게 내면화된 지식을 조직에게 공통화
- 개인의 암묵지를 표출화하고, 다시 본인의 지식에 연결화
암묵지 |
형식지 |
학습/체험/경험 통한 무형의 지식 체화된 지식으로 지식 전달/공유 어려움 |
형상화된 지식 지식 전달/공유 매우 용이 |
예) 자전거 타기, 메이크업 |
예) 교과서, 매뉴얼, 비디어 |
DIKW 피라미드
- 데이터, 정보, 지식을 통해 지혜를 얻는 과정을 계층 구조로 설명
- 데이터의 추론/예측/전망/추정을 위한 근거로서의 기능적(당위적) 특성에 주목
계층 | 정의 | 예 |
지혜 | 근본적 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어 | A회사의 다른 상품이 B회사의 것보다 보다 쌀 것이다 |
지식 | 상호연결된 정보 패턴을 이해하여, 이를 토대로 예측한 결과물 | 더 저렴한 A회사 제품을 사야겠다 |
정보 | 가공한 데이터로, 상관관계간 이해를 통해 패턴 인식 및 의미 부여 | A회사가 더 싸다 |
데이터 | 타 데이터와 상관관계가 없는 가공 전의 수치나 기호(존재 형식 불문) | A회사 제품은 1만원, B회사는 3만원 |
데이터베이스(database)
: 대용량의 데이터를 저장/관리/검색/이용할 수 있는 컴퓨터 기반의 데이터베이스.
국내 저작권 법에서는 기술 기반의 저작물로 인정함
국내 데이터분석 전문가 가이드에서는 상호관련된 다수 콘텐츠를 정보 처리/통신 기기에 의해 체계적으로 수집/축척하여 다양한 용도/방법으로 이용할 수 있도록 처리한 정보의 집합체로 정의
* 콘텐츠: 다양한 의미전달매체에 의해 표현된 인식가능한 모든 자료(데이터, 정보, 지식, 저작물 등)
DMBS(Database Management System) : 이용자가 데이터베이스를 쉽게 구축/유지할 수 있도록 하는 소프트웨어
데이터베이스 시스템 : 데이터베이스 + DBMS
데이터베이스의 역사
- 50년대 '데이터의 기지' : 미군 군비상황 관리 위한 컴퓨터 도서관을 설립.
- 60년대 '대량의 데이터를 축적하는 기지' : SDC 주최 심포지엄에서 공식 사용.
- 70년대 : 유럽, 미국에서 일반화/상용화됨.
한국은 70년대 미국 CAC가 한국과학시술정보센터를 통해 서비스되며 이용 시작. 초기엔 자기테이프 형태로 배치(batch, 일괄처리) 방식으로 제공 → 80년대부터 본격적인 데이터베이스 활용
데이터베이스의 일반적 특성 ★★★
- 저장된 데이터 : 컴퓨터가 접근할 수 있는 저장매체에 저장
- 통합된 데이터 : 데이터 중복이 없음
- 공용 데이터 : 여러 사용자가 서로 다른 목적으로 공동으로 이용함. 대용량화, 복잡한 구조화.
- 변화하는 데이터 : 데이터 삽입/삭제/갱신으로 항상 변화하면서 항상 현재의 정확한 데이터 유지
데이터베이스의 측면별 특성
구분 | 특성 |
정보의 축적/전달 측면 | 기계 가독성, 검색 가능성, 원격 조작성 |
정보 이용 측면 | 다양한/원하는 정보를 신속/정확/경제적으로 찾아낼 수 있음 |
정보 관리 측면 | 일정한 질서/구조에 따라 체계적으로 정보 정리/저장/검색/관리 |
정보기술 발전의 측면 | 정보처리/검색/관리 소프트웨어, 관련 하드웨어, 정보전송 네트워크 기술 발전 견인 가능 |
경제, 산업 측면 | 경제/산업/사회 활동의 효율성 제고 및 국민 편의 증진 수단 |
데이터베이스의 활용
기업 내부 활용
- 1990년대: 기업경영 전반 모든 자료를 연계하여 일관된 체계로 구축/운영하여 경영활동의 기반이 되는 전사 시스템으로 확대
- 90년대 중반 이전 : 단순 자동화에 치중된 OLTP(Online Transaction Processing) 시스템. 정보 수집 중심. 경영정보시스템(MIS)
- 90년대 중반 이후 : 단순 정보 수집 탈피. 분석 중심 시스템 구축. OLAP(Online Analytical Processing) 시스템.
- 2000년대 : CRM(고객관계관리)과 SCM(공급망 관리)가 주요 화두로 바뀜
- CRM(Consumer Relationship Management) : 고객별로 구매 이력 데이터베이스를 분석 후 고객 이해를 바탕으로 마케팅 전략 펼침
- SCM(Supply Chain Management) : 기업이 외부 공급업체/제휴업체와 통합된 정보시스템으로 연계하여 시간/비용 최적화
OLAP : 다차원의 데이터를 대화식으로 분석하기 위한 기술
BI(Business Intelligence) : 데이터 기반 의사결정을 지원하기 위한 리포트 중심의 도구
Business Analytics : 의사결정을 위한 통계적이고 수학적인 분석에 초점을 둔 기법
데이터 마이닝(Data Mining) : 대용량 데이터로부터 의미있는 관계, 규칙, 패턴을 찾는 과정
KMS(Knowledge Management System, 지식경영시스템) : 지식을 창출, 저장, 전이, 적용하려고 조직에서 개발한 일련의 비즈니스 프로세스를 말한다. 지식경영은 환경에서 학습하고 지식을 비즈니스 프로세스에 통합하는 조직의 능력을 향상 시킨다.
ERP(Enterprise Resource Planning, 전사적자원관리)
산업부분별 활용
산업부분 |
기존 |
변화 모습(2000년대 기점) |
제조 |
1. 기업별 고유 시스템 형태 |
1. 솔루션 유형으로 발전 |
금융 |
80년대 외환위기 이후 업무 프로세스 효율화, e비즈니스 활성화, 금융권 총합 시스템 구축이 크게 확산 |
1. EAI, ERP, e-CRM 등의 시스템 구축 2. 최근 차세대 프로젝트 등 대형 프로젝트 마무리되어, 향후 EDW(Enterprise Data Warehouse) 확장이 시장 확대 기여 예상 |
유통 |
1. CRM, SCM 외에 각종 인프라 및 KMS(Knowledge Management Systme) 위한 별도 백업시스템 구축 2. 체계적인 고객 정보 수집/분석, 상권분석 등으로 심화 3. 전자태그(RFID) 파급효과 전망 |
전자태그(RFID) : 사물과 주변 정보 접촉 없이도 무선 주파수로 전송/처리 가능한 인식기술. 별도 장비가 필요하고 주파수 의존성이 높은 기술적 한계로 기업이 주로 활용
QR코드 : 누구나 쉽게 제작/유통 가능하지만, 전자태그에 비해 보안/안전 취약하고 복수인증이 어려운 게 단점
사회기반구조로서 활용
: 90년대 전반엔 정부부처 중심으로 부가가치통신망(VAN)을 통한 정보망이 구축되다가, 90년대 후반부터 EDI, CALS 등에서 벗어나 지리/교통 부문의 데이터베이스 구축 시작됨. 2000년대에는 지리/교통 데이터베이스 고도화 외에 의료/교육/행정 등으로 공공 DB 구축 확대.
VAN(Value Added Network) : 부가가치통신망. 독자적인 네트워크로, 단순한 통신이 아니라 부가가치가 높은 서비스
EDI(Electronic Data Intercharge) : 무역에 필요한 각종 서류(주문서, 납품서 등)를 표준화된 양식을 통해 전자 신호로 바꿔 컴퓨터 통신망을 이용해 거래처에 전송하는 시스템
CALS(Commerce At Light Speed) : 전자상거래 구축을 위해 제품의 라이프 사이클 전반에 관련된 데이터를 통합한 경영통합정보시스템
'시험\자격증\Skills > 데이터분석 준전문가(ADsP)' 카테고리의 다른 글
데이터 분석 준전문가 자격증 시험_#2-2. 분석 마스터 플랜 (0) | 2020.08.14 |
---|---|
데이터 분석 준전문가 자격증 시험_#2-1. 데이터분석 기획의 이해 (0) | 2020.08.13 |
데이터 분석 준전문가 자격증 시험_#1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2020.08.12 |
데이터 분석 준전문가 자격증 시험_#1-2. 데이터의 가치와 미래 (0) | 2020.08.12 |
데이터 분석 준전문가(ADsP) 자격증 시험 정보 및 일정 (0) | 2020.08.11 |
댓글