▼ 데이터분석 준전문가 시험 과목 및 내용은 아래 접은 글 참고
과목 1_데이터 이해
1장. 데이터의 이해
- 데이터와 정보
- 데이터베이스의 정의와 특징
- 데이터베이스 활용
2장. 데이터의 가치와 미래
- 빅데이터의 이해
- 빅데이터의 가치와 영향
- 비즈니스 모델
- 위기 요인과 통제 방안
- 미래의 빅데이터
3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트
- 빅데이터분석과 전략 인사이트
- 전략 인사이트 도출을 위한 필요 역량
- 빅데이터 그리고 데이터 사이언스의 미래
과목 2_데이터분석 기획
1장. 데이터분석 기획의 이해
- 분석 기획 방향성 도출
- 분석 방법론
- 분석 과제 발굴
- 분석 프로젝트 관리 방안
2장. 분석 마스터 플랜
- 마스터 플랜 수립
- 분석 거버넌스 체계 수립
과목 3_데이터분석
1장. R기초와 데이터 마트
- R기초
- 데이터 마트
- 결측값 처리와 이상값 검색
2장. 통계분석
- 통계학 개론
- 기초 통계분석
- 다변량 분석
- 시계열 예측
3장. 정형 데이터 마이닝
- 데이터 마이닝 개요
- 분류분석(Classification)
- 군집분석(Clustering)
- 연관분석(Association Analysis)
통계학 개론
통계학
- 데이터 수집, 정리, 해석, 요약을 통해 자료로부터 유용한 정보를 이끌어내는 학문(기술통계 관련)
- 모집단에 대한 추론을 과학적으로 할 수 있는 자료 제공(추론통계 관련)
통계적 접근
- 통계분석(statistical analysis) : 특정 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상집단에 대한 정보를 구하고, 적절한 통계 분석 방법을 이용해 의사결정하는 과정
- 기술통계 (descriptive statistics): 자료 요약치 제공. 자료 분포에 대한 이해. 가설 설정 위한 자료. 보통 더 자세한 통계분석 위한 사전단계 역할. 모집단 설명 불가능 예) 산술평균, 표준편차, 막대그래프, 원그래프 등
- 추론통계 (inferential statistics): 표본자료로부터 모집단에 대한 통계적 추론(통계 분석 결과로 나온 의사결정). 모수 추정과 가설 검정이 해당 예) 분산분석, 회귀분석 등
- 모수추정법(estimation) : 모수(대상집단의 특성값)를 추측하는 추정.
- 점추정 : 모수가 특정한 값일 거라고 추정하는 것
- 구간추정 : 모수가 신뢰구간에 있을 거라고 선언하는 것. 보통 신뢰수준은 90%, 95%, 99% 사용
- 가설검정법(hypothesis test): 대상집단에 대한 특정 가설 설정 후 그 가설의 채택여부를 결정하는 분석방법. 가설은 항상 귀무가설과 대립가설 두 가지로 설정. 표본관찰 또는 실험을 통해 귀무가설, 대리가설 중 하나를 선택하는 과정. p-값(p-value)이 유의수준보다 작으면 귀무가설 기각
- 모수추정법(estimation) : 모수(대상집단의 특성값)를 추측하는 추정.
모수추정법 : 모수의 신뢰구간을 추정. 불확실성의 정도를 정량적으로 표현
가설검정법 : 모수에 대한 의문을 가설의 형태로 집약해 정성적으로 추론하는 방법
- 원리 : 표본에서 관측된 차이가 모집단의 진정한 차이에 의한 것인지 표본추출 오류인지 평가하는 것
- 가설의 종류
˙ 귀무가설은 가설검정의 기준이 되는 가설로, 실험자가 기각하고 싶은 기존의 사실. 예) 모평균과 표본평균은 차이가 없음
˙ 대립가설은 실험자가 채택하고 싶은 새로운 가설 예) 모평균과 표본평균은 차이가 있음
- 검증단계 : ① 귀무가설 및 대립가설의 수립 ② 검정통계량 계산 ③ 귀무가설이 참이라는 가정 하에 검정통계량이 따르는 분포 파악 ④ 귀무가설이 참일 때, 관찰된 검정통계량 이상의 값을 관찰하게 될 확률 파악. 유의확률(p-값) 확인 ⑤ 주어진 자료가 귀무가설 지지하는지 여부 결정. 유의확률(p-값)이 0.05보다 작으면 귀무가설 기각 ⑥ 제기된 연구질문 맥락에서 결론 수립. 귀무가설 기각 시 "귀무가설을 반대할 증거를 보인 유의미한 결과가 있다"라고 표현
<대표값의 종류>
- 평균(average) : 측정자료 분포가 좌우 대칭인 경우, 전체 자료를 가장 잘 대변하는 대표값
- 중앙값(median) : 전체 측정값을 순서대로 나열했을 때 가장 중앙에 위치하는 값. 측정값의 수가 짝수일 땐 가운데 2개의 수의 평균을 사용. 극단값의 영향이 적다는 장점.
- 최빈값(mode) : 가장 빈도가 높은 측정값
분위수 : 측정값의 대표값이 아니라 특정 위치에 존재하는 값을 알고자 할 때 사용. 사분위수는 순서대로 나열한 전체 측정값을 4등분했을 때 25% 지점 값을 1사분위수, 50%는 2사분위수, 75%는 3사분위수라 함.
증명하고 싶은 가설을 대립가설로, 대립가설과 반대의 증거를 찾기 위해 정한 가설을 귀무가설로 지정
검정통계량(test statistic, T(X)): 검정에 사용되는 표본통계량. 추정치를 계산하는 것. 귀무가설 하에서 검정통계량이 특정 분포(t-검정은 t-분포)를 따름
예) 표본평균, 표본분산 등
p-값(p-value, 유의확률): 귀무가설이 사실일 때 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률. p-값이 0.05보다 작으면 귀무가설 기각
유의수준 : 그릇된 판정을 내릴 확률로 연구자가 미리 설정하며, 보통 0.01, 0.05, 0.1 중 한 개 값 사용. 통상적으로 5% 유의수준, 즉 0.05를 사용
기각역(critical region, C) : 귀무가설을 기각하는 통계량의 영역
<판정오류>
- 제1종오류: 귀무가설이 옳은데 기각하는 오류. 보통 α=0.05 사용(5% 판정오류를 감수하고라도 귀무가설을 부정하여 연구자의 가설을 지지한다는 의미)
- 제2종오류: 귀무가설이 틀린데 채택하는 오류. 보통 β=0.2 사용
통계적 판단의 원리
- 모집단(population) : 우리가 알고자 하는(연구대상이 되는) 전체.
- 표본 : 모집단을 잘 대표하기를 기대하며 추출한 모집단의 일부.
모집단 조사방법은 총조사(census)와 표본조사로 나뉨. 총조사는 많은 비용, 시간이 소요돼 보통 표본조사 실시.
모수(parameter) : 모집단 전체에 대해 계산한 값
통계량(statistic) : 표본으로부터 얻어지는 여러 가지 측정값
모집단 | 모수 | 모평균 | 모분산 | 모 표준편차 | 모 상관계수 | 모 분율 | 모 회귀계수 |
표본 | 표본통계량 | 표본평균 | 표본분산 | 표본 표준편차 | 표본 상관계수 | 표본 분율 | 표본 회귀계수 |
신뢰구간
표준오차
자료의 종류
- 측정 : 표본조사나 실험 과정에서 추출된 원소나 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
- 측정방법
- 명목척도=명칭척도 : 측정대상이 어느 집단(범주)에 속하는지 분류. 수학적 연산 불가능.
- 순서척도=순위척도 : 측정대상의 특성이 가지는 서열관계 관측. 일정한 순서. 예) 특정 서비스 선호도 문항(아주 좋아한다, 좋아한다, 그저 그렇다, 싫어한다, 아주 싫어한다)
- 등간척도=구간척도=간격척도 : 측정대상이 갖는 속성의 양 측정. 절대영점 없음. 예) 온도, 지수 등
- 비율척도=비척도 : 절대영점 존재. 모든 사칙연산 가능. 제일 많은 정보 보유. 예) 무게, 나이, 연간소득, 가격 등
질적자료: 명목척도와 순서척도로 측정된 자료
양적자료: 구간척도와 비율척도로 측정된 자료
확률 및 확률분포
- 확률 : 특정사건이 일어날 가능성의 척도
- 표본공간(sample space, Ω) : 통계적 실험 실시 시 나타날 수 있는 모든 결과들의 집합
- 사건(event) : 표본공간의 부분집합
- 조건부 확률(conditional probability, P(B|A) ) : 사건A가 일어났다는 가정하의 사건B의 확률. P(A) >0이어야 함.
- 확률변수 : 특정값이 나타나는 가능성이 확률적으로 주어지는 변수. 정의역(domain)이 표본공간이고 치역(range)이 실수값인 함수. 이산형 확률변수와 연속형 확률변수가 있음.
- 이산형 확률변수(discrete random variable) : 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수 예) 확률분포, 이항분포, 다항분포, 기하분포, 포아송분포 등
- 연속형 확률변수(continuous random variable) : 사건의 확률이 그 사건 위에서 어떤 0보다 큰 값을 가진 함수의 면적으로 표현될 수 있는 확률변수 예) 균일분포, 정규분포, 지수분포, t-분포 등
근원사건 : 오직 한 개의 원소로만 이루어진 사건
배반사건 : 교집합이 공집합인 사건들
n(A)는 집합 A에 있는 원소의 수
비대칭분포 : 측정값들이 좌우대칭이 아니고 꼬리가 오른쪽이나 왼쪽으로 크게 치우친 경우
산포도
- 범위(range) : 최대값-최소값
cf) 사분위범위 : 제1사분위수와 제3사분위수 사이의 범위. 전체 관측치의 50% 포함
- 정상범위(normal range) : 전체 관측치의 95% 포함하는 범위
- 분산(variance) : 봉우리가 하나고 좌우가 대칭인 분포의 산포도 표시에 가장 좋은 방법
- 표준편차(standard deviation) : 인위적으로 제곱을 해준 제곱단위인 분산을 원래의 단위로 재환원한 결과
* 원래 알고 싶은 건 표준편차지만, 제곱을 안할 경우 0이 나오므로 제곱 후 루트를 씌워서 알아내는 방식 취함
- 변이계수(coefficient of variation, CV) : 산포도 비교를 위해 산포도를 평균값으로 나눠 표준화된 값.
모수적 통계분석과 비모수적 통계분석
- 모수적 통계분석 : 표본이 특정 분포를 따른다고 하는 경우 모집단에 대한 가정을 전제. 가정된 분포의 모수(모평균, 모분산 등)에 대해 가설 설정
- 비모수적 통계분석 : 표본의 수가 매우 적거나(10개 이하) 변수 분포가 특정 분포를 따른다고 가정할 수 없는 경우 대안적으로 사용. 가정된 분포가 없어 분포의 형태(분포의 형태가 동일하다/동일하지 않다)에 대해 가설 설정.
자료의 성격 | 모수적 통계분석 | 비모수적 통계분석 |
2개의 독립된 자료 예) 자사와 경쟁사 제품 만족도 * 등분산성 검토 |
t-test | 윌콕슨의 순위합검정(rank sum test), 만-위트니의 U검정, Median test |
2개의 짝지어진 자료 예) 자사 동일한 고객에게 2번 만족도 조사 * 정규성 검토 |
paired t-test | 윌콕슨의 부호순위합검정(signed rank test) |
3개 이상의 자료 * 정규성, 등분산성 검토 |
ANOVA(분산분석법) | Kruskal-Wallis test |
제 3의 변수의 영향을 보정 | 2-way ANOVA | Friedman;s 2-way ANOVA |
상관성 분석 | Pearson's correlation | 스피어만의 순위상관계수, Kendall's tau test |
<SPSS 메뉴 경로>
- 표본평균과 모평균과의 차이 검정 : 분석 > 평균비교 > 일표본T검정
- 독립 t-test : ① 분석 > 평균비교 > 독립표본 T검정 ② 검정변수 선택 > 집단변수 선택 > 집단정의
* Levene의 등분산 검정 : 귀무가설 하에 F분포를 따르며, 집단에서 추정된 통합분산을 공통으로 사용. 해당 유의확률이 0.05보다 클 경우 두 집단 간 분산이 같다"는 귀무가설을 채택하여 등분산 만족
* 평균의 동일성에 대한 T검정 : 유의확률이 0.05보다 클 경우 귀무가설 채택
- 짝을 이룬 두 개의 평균치의 모집단 차이 검정(paired t-test) : 분석 > 평균비교 > 대응표본 T검정
* difference variable 만들어주기 위해 변환 > 변수계산>목표변수 및 숫자표현식
* 정규성 검토 : 히스토그램을 그리거나, Kolmogorov-Smirnov 검정 활용. 이때 귀무가설은 "정규분포를 따른다"임.
- 히스토그램으로 정규성 검토 : ① 그래프 > 레거시 대화상자 > 히스토그램 메뉴 선택 ② 변수선택 > 정규곡선 표시 체크 > 패널기준 행 변수 이동
- Kolmogorov-Smirnov 검정으로 정규성 검토 : ① 보고서 > 기술통계량 > 데이터 탐색 ② 변수선택 > 도표선택 > 검정과 함께 정규성도표 표시
- ANOVA : ① 분석 > 일반선형모형 > 일변량 ② 종속변수와 고정요인 선택 > 사후분석 검정변수 선택 > 등분산 가정시 사후분석방법 선택 ③ 일변량 분석 화면 내 옵션에서 동질성 검정 선택
* ANOVA는 어떤 집단의 분산이 차이가 있는지 알 수 없기 때문에 사후 분석 해야 함.
총분산
급내분산
급간분산
F-통계량 : 급간분산/급내분산
다중비교
분산분석에서 통계적으로 유의한 차이가 있는 것으로 나왔다면, 몇 개의 표본평균이 차이가 나는 것인지 알아보는 방법
방법이 매우 다양. 의학연구에서는 보통 Tukey법이나 Schffe법 사용
기초 통계분석
이론분포
- 정규분포(normal distribution) : 통계분석에 많이 이용되는 가장 중요한 분포. 평균과 표준편차에 따라 다양한 형태가 존재함. 참고로 ±2σ의 범위는 95% 신뢰수준 의미
- 표준정규분포(standard normal distribution)
표준화: 정규분포의 평균을 0으로 평행이동시키고, 분산을 1이 되게 하는 것
정상범위 : 평균±1.96*표준편차(+는 상한값, -는 하한값)
*1.96은 Z분포에서 2σ의 Z값
표준편차 : 표본에서 측정한 실측자료의 퍼져 있는 산포도를 표시하는 통계량. 모집단 추론 불가능
* 정상범위는 표본에 대한 이야기임
신뢰구간 : 평균±1.96*표준오차(+는 상한값, -는 하한값). 평균값으로부터 ±2σ(95% 신뢰수준)에 가까운 어떤 값과 표준편차의 곱 만큼의 거리. 이 거리에 해당하는 곡선의 면적이 전체 면적의 95%에 해당
* 1.96은 Z분포에서 2σ의 Z값
* ±1σ(68% 신뢰수준), ±2σ(95% 신뢰수준), ±3σ(99% 신뢰수준)
표준오차(standard error) : 표본평균값들로 이루어진 분포의 표준편차. 즉 표준편차를 표본수에 루트를 씌워 나눈것
신뢰수준 : 연구자가 미리 정하는 확률임 예) 95% 신뢰수준, 99% 신뢰수준
<모평균치 신뢰구간의 추정방법>
- 모분산을 아는 경우 : 기본 신뢰구간 추정식
- 모분산을 모르고 표본 수 30개 이상 : z분포
- 모분산을 모르고 표본 수 30개 미만 : t분포
- 모분율 : 이항분포
기술통계
자료를 요약하는 기초적 통계. 본격적인 데이터 분석 전에 데이터에 대한 대략적인 이해와 이후 분석에 대한 통찰력을 얻기에 유리.
관련 R함수
- data(데이터 이름) : 내장된 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수
- head(데이터 이름) : 데이터를 기본 6줄을 보여줘서 데이터가 성공적으로 import되었는지를 살펴 볼 수 있는 함수
- head(데이터 이름, n) : import한 데이터의 특정 라인까지 보고 싶을 경우 n에 숫자 지정해주면 됨
- summary(데이터 이름) : 데이터의 각 컬럼에 대한 전반적인 기초 통계량을 보여줌
* 데이터 양이 방대하고 컬럼 수가 많은 경우 아래 함수들을 이용해 개별 통계량을 구할 수 있다
* 데이터네임$컬럼명 : 데이터의 특정 컬럼 선택 시
mean(데이터 이름$컬럼명) : 특정 컬럼 평균 구하기
median(데이터 이름$컬럼명) : 특정 컬럼 중앙값
sd(데이터 이름$컬럼명) : 특정 컬럼 표준편차
var(데이터 이름$컬럼명) : 특정 컬럼 분산
max(데이터 이름$컬럼명) : 특정 컬럼 최대값
min(데이터 이름$컬럼명) : 특정 컬럼 최소값
quantile(데이터 이름$컬럼명, 1/4) : 특정 컬럼 1사분위수
quantile(데이터 이름$컬럼명, 3/4) : 특정 컬럼 3사분위수
회귀분석(Regression Analysis)
- 하나나 그 이상의 변수들이 또다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법
- 두 변수가 적어도 간격척도 이상의 연속 변수이면서 인과관계나 선후관계가 있는 것이 확실한 경우 적용
- 회귀계수(β)는 관련성의 정도(직선의 기울기)를 +,- 여부는 방향을 보여줌
- 회귀분석의 종류
- 단순(선형)회귀 : 가장 단순한 회귀모형. 독립변수 1개, 종속변수 1개로 이루어져 있고, 오차항이 있는 선형관계
- 다중회귀 : 2개 이상의 독립변수를 사용하여 종속변수의 변화를 설명(단순선형회귀모형으로 종속변수 변동의 설명이 충분치 않은 경우). 독립변수와 종속변수의 관계가 선형(1차 함수)
- 다항회귀 : 2개 이상의 독립변수. 종속변수와의 관계가 1차 함수 이상
- 비선형회귀 : 회귀식의 모양의 미지의 모수드르이 선형관계로 이루어져 있지 않은 모형
독립변수=설명변수 : 영향을 주는 변수. 보통 x1, x2, x3 등으로 표기.
종속변수=반응변수 : 영향을 받는 변수. 보통 y로 표기.
오차항 : 보통의 경우 평균이 0이고 분산이 σ²인 정규모형을 따른다고 가정함.
회귀모형의 적절성 판단
- 모형이 통계적으로 유의미한가? : F통계량 확인. 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의
- 회귀계수들이 유의미한가? : 해당 계수의 t통계량과 p-값 또는 신뢰구간 확인
- 모형이 얼마나 설명력을 갖는가? : 결정계수(0~1) 확인. 값이 높을수록 추정된 회귀식의 설명력이 높음
- 모형이 데이터를 잘 적합하고 있는가? : 잔차를 그래프로 그리고 회귀진단
- 데이터가 아래의 모형 가정을 만족시키는가?
- 정규성=정상성 : 잔차항이 정규분포 이뤄야 함. normal Q-Q plot 그래프의 점들이 45도 각도의 직선 위에 있어야 정규성 가정 만족
- 등분산성 : 독립변수의 모든 값에 대해 오차들의 분산이 일정. 잔차가 랜덤하게 잘 퍼져 있어야 함,
- 선형성 : 독립변수의 변화에 따라 종속변수도 일정크기로 변화. 잔차의 산포도 분석을 통해 파악함. 잔차와 예측치 간에 관계가 존재하면 안됨(잔차들이 0을 중심으로 균등하게 흩어져 있어야 함)
- 독립성 : 잔차와 독립변수의 값이 관련돼 있지 않음
- 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함
F통계량
결정계수(coefficient of determination, R제곱) : 데이터의 총 변동 중 회귀직선에 의한 비율 확인(설명의 정도를 알려주는 지표). 한 변수의 변동을 나머지 한 변수의 변동이 설명하는 능력
잔차 : 관찰치와 추정치와의 차이. 적합한 모형에서 나온 잔차는 정규분포를 따르고 분산이 일정하고, 특별한 추세를 보이지 말아야 함(추세를 보인다면 모형에 포함되어야 할 정보가 빠졌다는 얘기임)
최적회귀방정식의 선택: 설명변수의 선택
- 원칙
- y에 영향을 미칠 수 있는 모든 독립변수 x들을 y의 값을 예측하는데 참여시킴
- 가능한 범위 내에서 적은 수의 설명변수를 포함시켜야 함
- 설명변수 선택방법
- 모든 가능한 조합의 회귀분석: 가장 작은 값을 갖는 모형을 최적의 모형으로 선택
- AIC(Akaike information criterion)
- BIC(Bayesian information criterion)
- 단계적 변수선택
- 전진선택법(forward selection)
- 후진제거법(backward elimination)
- 단계별방법(stepwise method)
- 모든 가능한 조합의 회귀분석: 가장 작은 값을 갖는 모형을 최적의 모형으로 선택
분산분석표 : 회귀분석으로 설명이 가능한 값과 가능하지 않은 값에 대한 설명. F-검정통계량과 p-값을 보고 판단
결정계수(coefficient of determination, R제곱) : 데이터의 총 변동 중 회귀직선에 의한 비율 확인(설명의 정도를 알려주는 지표). 한 변수의 변동을 나머지 한 변수의 변동이 설명하는 능력
잔차분석
가능도(likelihood) : 확률분포 함수의 y값. 어떤 결과값이 일어날 확률
관련 R함수
- set.seed() : 난수를 생성할 때 같은 난수가 나오도록 고정시키는 역할. 하나의 정수 인자를 받음.
- lm() : lm() : 단순선형회귀분석
- runif(n, min, max) : min~max 범위 내의 n개의 난수 생성. n은 생성할 난수의 개수, min은 난수 최소값, max는 난수 최대값
- rnorm
- plot(데이터프레임) : 산점도
- step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수 선택방법" : lm은 사용분석방법이 회귀분석임을 보여준다. scope는 분석할 때 고려할 변수의 범위를 정한다. lower에서 1을 입력하면 상수항을 의미하고, 가장 높은 단계를 설정하기 위해서는 upper에 설명변수들을 모두 써주면 된다. direction은 변수 선택방법으로 forward, backward, both의 옵션이 있다.
- 벡터명 <- read.csv("파일경로\\파일명.csv", header=TRUE)
- plot(lm(y~x, data=데이터명)
* R에서 구체적인 디렉터리를 설정해 외부 데이터세트를 읽을 때 역슬래시는 2번 해줘야 한다(\\)
다변량 분석
상관분석(Correlation Analylsis)
데이터 안의 두 변수 간의 관계를 파악하는 분석
상관계수(Correlation coefficient)
- 두 변수의 상관관계를 알아보기 위해 이용
- 상관계수가 양수일 때는 x 증가 시 y도 증가. 음수일 때는 x 증가시 y 감소 경향
- 종류
- 피어슨 상관계수(Pearson correlation) : 등간척도 이상으로 측정되는 두 변수들 간의 상관관계. 두 변수 간의 선형관계의 크기를 측정하는 값. 비선형적인 상관관계는 나타내지 못함
- 스피어만 상관계수(Spearman correlation) : 서열척도인 두 변수들의 상관관계를 측정하는 데 사용. 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값
다차원 척도법(Multidimensional Scaling, MDS)
- 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법.
- 주어진 거리는 추상적 거리, 실수 모두 가능. 남북의 방향과 무관하게 상대적인 거리만을 유지하여 회전/대칭/확대/축소를 해도 각 위치의 상대적 거리는 변하지 않음.
- 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용됨
- 분석방법 : 개체들의 거리 계산에는 유클리드 거리행렬을 활용. 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합정도를 스트레스 값으로 나타냄.
- 종류
- 계량적 MDS(metric MDS) : 데이터가 구간척도나 비율척도인 경우 활용
- 비계량적 MDS(nonmetirc MDS) : 데이터가 순서척도인 경우 사용
* 마케팅 분야에서는 포지셔닝 맵을 만드는 용도로 비계량적 MDS를 주로 사용함. 시장과 경쟁구조에 대한 기초 진단을 통해 소비자의 인식, 선호, 선택에 이르는 일련의 과정을 일관성 있게 이해할 수 있도록 하여 제품 개발, 시장 세분화, 포지셔닝, 마케팅믹스 전략에 이용.
주성분 분석(Principal Component Analysis, PCA)
- 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법.
- 목적 : 주로 자료의 차원을 축약시켜 데이터를 쉽게 이해, 관리하는 데 사용
- 먼저 추출되는 주성분 요인일수록 입력변수들이 가진 총분산을 많이 설명할 수 있도록 주성분 요인을 순차적으로 추출함.
- 주성분들은 서로 상관관계가 없고, 주성분들의 분산의 합은 Xi들의 분산의 합과 같다
- 활용
- 다중공선성 존재 시 상관성이 적은 주성분으로 변수를 축소하여 회귀분석이나 의사결정나무 등의 모형 개발에 활용
- 주성분분석으로 차원 축소 후 군집분석 수행 시 군집화결과의 연산속도 개선
- 주성분분석으로 차원 축소 후 시계열로 분포/추세 변화를 분석하여 기계의 고장 징후를 사전에 파악하는 데 활용
- 선택방법
- summary에서 누적기여율(cumulative proportion)이 85% 이상이면 주성분의 수로 결정할 수 있음
- 스크리 테스트(scree test)를 그래프화하여 기울기가 급하강하다가 갑자기 완만해지는 곳 주변에서 요인의 수 결정
* 마케팅 분야에서는 크게 활용 안하지만 빅데이터 관련해서는 생각해볼 필요 있음.
* 주성분분석 결과에서 분산의 비율(Proportion of Variance) 수치가 각 주성분이 전체 분산을 설명해주는 %를 보여준다
* 주성분분석은 총분산을 이용해 요인을 추출하고, 공통요인분석은 공통분산을 이용해 요인을 추출함. 주성분분석은 소수의 요인을 추출하는게 목적으로, 공통분산이 크다는 걸 알 때 적절. 공통요인분석은 분산구성에 대한 사전 지식이 없을 때 적절
요인분석: 변수를 줄여주는 역할을 함. 변수 정의가 필요.
- 확인적 요인분석 : 기존 자료 기준으로 요인 검증
- 탐색적 요인분석 : 새로운 요인 추출. 포함하는 변수에 따라 요인 이름을 새로 부여
주성분분석 | 요인분석 | |
생성된 변수의 이름 | 제1주성분(PC1), 제2주성분(PC2)으로 표현 | 분석자가 요인(factor)의 이름을 명명 |
생성된 변수들 간의 관계 | 먼저 추출되는 주성분일수록 중요함. | 기본적으로 대등한 관계 |
분석방법의 의미 | 목표변수를 고려하여 목표변수를 잘 예측/분류하기 위해 원래 변수들의 선형결합으로 이뤄진 주성분을 찾음 | 목표변수를 고려하지 않고 데이터가 주어지면 비슷한 성격들로 묶어서 새로운 잠재변수 생성 |
투입변수와 생성변수의 개수 | 입력변수의 개수와 주성분의 개수가 같아야 함(n개의 입력변수들이 가지는 총분산을 n개의 주성분으로 다시 나타냄.) | 요인의 개수는 투입변수보다 적을 수 있음 |
총분산 = 공통분산 + 고유분산 + 오차분산
스크리 그림(Scree plot) : 각 주성분의 분산의 크기를 그림으로 그려준 것으로, 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정하는 것이 하나의 방법임,
관련 R함수
- plot(변수1, 변수2) : 데이터세트의 두 변수간의 산점도 그리기
- cor(변수1, 변수2) : 두 변수의 상관계수를 구함
- cov(데이터세트) : 공분산 구하기
- rcorr(as.matrix(데이터세트), type="spearman") : 스피어만 상관계수
- cmdscale(데이터세트) : 상대적 위치를 도식화할 수 있는 XMY 좌표를 계산
- princomp(데이터세트, cor=TRUE) : 주성분분석 함수. cor=TRUE 옵션은 주성분분석을 공분산행렬이 아닌 상관계수 행렬을 사용해 수행하도록 함.
- loadings(주성분결과를 저장한 이름) : 주성분들의 로딩 벡터를 보여줌
- 주성분결과를 저장한 이름$scores : 각 관측치를 주성분들로 표현한 값
- biplot(주성분결과를 저장한 이름) : 주성분결과에 대해 biplot 그래프 그리기
시계열 예측
시계열 분석(Time-series Analysis)
- 시계열 자료의 분석을 통해 미래의 값을 예측하고, 경향, 주기, 계절성을 파악하여 활용
- 시계열 자료(Time-series Data) : 시간의 흐름에 따라서 관측된 데이터
- 비정상성 시계열 자료 : 시계열 분석 실시할 때 다루기 어려운 자료. 대부분의 시계열 자료가 여기에 해당. 정상성의 3가지 조건 중 하나라도 만족하지 못한 경우의 시계열자료
- 정상성 시계열 자료 : 비정상 시계열 자료를 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료. 모든 시점에 대해 일정한 평균을 갖거나(항상 그 평균값으로 회귀하려는 경향이 있고 평균값 주변에서의 변동은 대체로 일정한 폭을 가짐) 분산이 특정시점에 의존하지 않는 경우가 해당
- 정상성(Stationary)를 만족해야 함 : 일정한 평균, 일정한 분산, 공분산은 단지 시차에만 의존(시점에는 의존 안함)
- 시계열 분석방법
- 장기예측: 회귀분석 방법 활용
- 단기예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용
- 시계열 모형
- AR모형(자기회귀모형, Autoregressive model) : 현 시점의 자료가 p 시점 전의 유한 개의 과거 자료로 설명될 수 있다는 의미. AR(p)모형이라 함. 현 시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는 데 있음.
- 판단방법: 모형식별을 위해 자료에서 자기상관함수(ACF), 부분자기상관함수(PACF, Partial ACF)를 이용하여 식별. 일반적으로 자기상관함수는 시차가 증가함에 따라 점차적으로 감소하고 부분자기상관함수는 p+1시차 이후 급격히 감소하여 절단된 형태이며 이를 AR(p) 모형이라고 판별함
- AR(1)모형(1차 자기회귀모형) : 과거 1시점 이전의 자료만 영향을 주는 모형
- AR(2)모형 (2차 자기회귀모형) : 과거 2시점 전 자료까지 영향을 주는 모형
- MA모형(이동평균모형, Moving Average model) : 시계열 자료를 모형화하는데 AR모형 다음으로 많이 쓰이는 모형
- 항상 정상성 만족(정상성 가정이 필요없음)
- 판단방법 : 자기회귀모형와 반대로 자기상관함수(ACF)는 p+1 시차 이후 절단된 형태가 되고, 부분자기상관함수(PACF)는 점차 감소되는 형태를 보임
- ARIMA 모형(자기회귀누적이동평균모형, Autoregressive Integrated Moving Average model) : 대부분의 많은 시계열자료가 따르는 모형.
- 기본적으로 비정상적 시계열이기 때문에 차분이나 변환을 통해 AR모형, MA모형, ARMA모형으로 정상화 가능
- ARIMA(p, d, q) 모형은 차수 p,d,q의 값에 따라 모형의 이름이 달라짐. 차수 p는 AR모형과 관련이 있고, q는 MA모형, d는 ARIMA에서 정상화할 때 몇 번 차분했는지를 의미
- d=0 : ARMA(p,q)모형이라 부름. 정상성 만족
- p=0 : IMA(d,q)모형. 이를 d번 차분한 시계열모형이 MA(q)모형을 따름
- q=0 : ARI(q,d)모형. 이를 d번 차분한 시계열모형이 AR(p)모형을 따름
- ARMA모형(자기회귀이동평균모형, Autoregressive Moving Average model) : Box-Jenkins법(동정, 추정, 진단)으로 작성. 비정상시계열인 ARIMA(p,d,q)에서 차분 d를 취해 정상시계열에 접근시켜 분석
- AR모형(자기회귀모형, Autoregressive model) : 현 시점의 자료가 p 시점 전의 유한 개의 과거 자료로 설명될 수 있다는 의미. AR(p)모형이라 함. 현 시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는 데 있음.
- 분해시계열 : 시계열에 영향을 주는 일반적 요인을 시계열에서 분리해 분석하는 방법. 회귀분석적 방법 주로 사용
- 아래의 시계열 구성요인을 정확하게 분리하는 것이 중요하나, 쉽지 않음.
- 이론적 약점은 있지만, 경제분석이나 예측에서 성공적으로 사용됨
- 시계열 구성 요소
- 추세요인 : 자료가 어떤 특정한 형태를 취함(선형적 추세, 이차식 형태, 지수적 형태 등)
- 계절요인 : 고정된 주기에 따라 자료가 변화
- 순환요인 : 알려지지 않은 주기에 따라 자료가 변화
- 불규칙요인 : 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인
차분 : 현시점 자료값에서 전시점 자료값을 빼는 것. 일반차분(바로 전시점의 자료를 빼는 방법)과 계절차분(계절성을 갖는 자료를 여러 시점 전의 자료를 빼는 것)이 있음.
* 정상성 시계열 자료의 평균이 일정하지 않으면 차분(difference)를 정상화함
지수평활법 : 과거일수록 기간에 부여하는 가중치가 지수함수적으로 감소하게 적용하므로 단기예측에 활용
백색잡음과정
'시험\자격증\Skills > 데이터분석 준전문가(ADsP)' 카테고리의 다른 글
데이터분석 준전문가 ADSP 합격 후기 (0) | 2020.10.03 |
---|---|
데이터 분석 준전문가 자격증 시험_#2-2. 분석 마스터 플랜 (0) | 2020.08.14 |
데이터 분석 준전문가 자격증 시험_#2-1. 데이터분석 기획의 이해 (0) | 2020.08.13 |
데이터 분석 준전문가 자격증 시험_#1-3. 가치 창조를 위한 데이터 사이언스와 전략 인사이트 (0) | 2020.08.12 |
데이터 분석 준전문가 자격증 시험_#1-2. 데이터의 가치와 미래 (0) | 2020.08.12 |
댓글