본문 바로가기
시험\자격증\Skills/데이터분석 준전문가(ADsP)

데이터 분석 준전문가 자격증 시험_#3-2. 통계분석

by 하찮이 2020. 8. 28.

 

 

▼ 데이터분석 준전문가 시험 과목 및 내용은 아래 접은 글 참고

더보기

과목 1_데이터 이해 

1장. 데이터의 이해

 

  • 데이터와 정보
  • 데이터베이스의 정의와 특징
  • 데이터베이스 활용

2장. 데이터의 가치와 미래

  • 빅데이터의 이해
  • 빅데이터의 가치와 영향
  • 비즈니스 모델
  • 위기 요인과 통제 방안
  • 미래의 빅데이터

3장. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

  • 빅데이터분석과 전략 인사이트
  • 전략 인사이트 도출을 위한 필요 역량
  • 빅데이터 그리고 데이터 사이언스의 미래

과목 2_데이터분석 기획 

1장. 데이터분석 기획의 이해

  • 분석 기획 방향성 도출
  • 분석 방법론
  • 분석 과제 발굴
  • 분석 프로젝트 관리 방안

2장. 분석 마스터 플랜

  • 마스터 플랜 수립
  • 분석 거버넌스 체계 수립

과목 3_데이터분석 

1장. R기초와 데이터 마트

 

  • R기초
  • 데이터 마트
  • 결측값 처리와 이상값 검색

2장. 통계분석

  • 통계학 개론
  • 기초 통계분석
  • 다변량 분석
  • 시계열 예측

3장. 정형 데이터 마이닝

  • 데이터 마이닝 개요
  • 분류분석(Classification)
  • 군집분석(Clustering)
  • 연관분석(Association Analysis)

 


통계학 개론

 

통계학

  • 데이터 수집, 정리, 해석, 요약을 통해 자료로부터 유용한 정보를 이끌어내는 학문(기술통계 관련)
  • 모집단에 대한 추론을 과학적으로 할 수 있는 자료 제공(추론통계 관련)

 

통계적 접근

  • 통계분석(statistical analysis) : 특정 집단이나 불확실한 현상을 대상으로 자료를 수집해 대상집단에 대한 정보를 구하고, 적절한 통계 분석 방법을 이용해 의사결정하는 과정
    • 기술통계 (descriptive statistics): 자료 요약치 제공. 자료 분포에 대한 이해. 가설 설정 위한 자료. 보통 더 자세한 통계분석 위한 사전단계 역할. 모집단 설명 불가능 예) 산술평균, 표준편차, 막대그래프, 원그래프 등
    • 추론통계 (inferential statistics): 표본자료로부터 모집단에 대한 통계적 추론(통계 분석 결과로 나온 의사결정). 모수 추정가설 검정이 해당  예) 분산분석, 회귀분석 등
      • 모수추정법(estimation) : 모수(대상집단의 특성값)를 추측하는 추정. 
        • 점추정 : 모수가 특정한 값일 거라고 추정하는 것
        • 구간추정 : 모수가 신뢰구간에 있을 거라고 선언하는 것. 보통 신뢰수준은 90%, 95%, 99% 사용
      • 가설검정법(hypothesis test): 대상집단에 대한 특정 가설 설정 후 그 가설의 채택여부를 결정하는 분석방법. 가설은 항상 귀무가설대립가설 두 가지로 설정. 표본관찰 또는 실험을 통해 귀무가설, 대리가설 중 하나를 선택하는 과정. p-값(p-value)이 유의수준보다 작으면 귀무가설 기각
모수추정법 : 모수의 신뢰구간을 추정. 불확실성의 정도를 정량적으로 표현
가설검정법 : 모수에 대한 의문을 가설의 형태로 집약해 정성적으로 추론하는 방법
 - 원리 : 표본에서 관측된 차이가 모집단의 진정한 차이에 의한 것인지 표본추출 오류인지 평가하는 것

 - 가설의 종류
  ˙ 귀무가설은 가설검정의 기준이 되는 가설로, 실험자가 기각하고 싶은 기존의 사실.  예) 모평균과 표본평균은 차이가 없음
  ˙ 대립가설은 실험자가 채택하고 싶은 새로운 가설   예) 모평균과 표본평균은 차이가 있음
 - 검증단계 : ① 귀무가설 및 대립가설의 수립 ② 검정통계량 계산 ③ 귀무가설이 참이라는 가정 하에 검정통계량이 따르는 분포 파악 ④ 귀무가설이 참일 때, 관찰된 검정통계량 이상의 값을 관찰하게 될 확률 파악. 유의확률(p-값) 확인  ⑤ 주어진 자료가 귀무가설 지지하는지 여부 결정. 유의확률(p-값)이 0.05보다 작으면 귀무가설 기각  ⑥ 제기된 연구질문 맥락에서 결론 수립. 귀무가설 기각 시 "귀무가설을 반대할 증거를 보인 유의미한 결과가 있다"라고 표현

 

 

<대표값의 종류>
- 평균(average) : 측정자료 분포가 좌우 대칭인 경우, 전체 자료를 가장 잘 대변하는 대표값
- 중앙값(median) : 전체 측정값을 순서대로 나열했을 때 가장 중앙에 위치하는 값. 측정값의 수가 짝수일 땐 가운데 2개의 수의 평균을 사용. 극단값의 영향이 적다는 장점.
- 최빈값(mode) : 가장 빈도가 높은 측정값
분위수 : 측정값의 대표값이 아니라 특정 위치에 존재하는 값을 알고자 할 때 사용. 사분위수는 순서대로 나열한 전체 측정값을 4등분했을 때 25% 지점 값을 1사분위수, 50%는 2사분위수, 75%는 3사분위수라 함.
증명하고 싶은 가설을 대립가설로, 대립가설과 반대의 증거를 찾기 위해 정한 가설을 귀무가설로 지정
검정통계량(test statistic, T(X)): 검정에 사용되는 표본통계량. 추정치를 계산하는 것. 귀무가설 하에서 검정통계량이 특정 분포(t-검정은 t-분포)를 따름    
예) 표본평균, 표본분산 등
p-값(p-value, 유의확률): 귀무가설이 사실일 때 관측된 검정통계량의 값보다 더 대립가설을 지지하는 검정통계량이 나올 확률. p-값이 0.05보다 작으면 귀무가설 기각
유의수준 : 그릇된 판정을 내릴 확률로 연구자가 미리 설정하며, 보통 0.01, 0.05, 0.1 중 한 개 값 사용. 통상적으로 5% 유의수준, 즉 0.05를 사용
기각역(critical region, C) : 귀무가설을 기각하는 통계량의 영역
<판정오류>
- 제1종오류
: 귀무가설이 옳은데 기각하는 오류. 보통 α=0.05 사용(5% 판정오류를 감수하고라도 귀무가설을 부정하여 연구자의 가설을 지지한다는 의미)
- 제2종오류: 귀무가설이 틀린데 채택하는 오류. 보통 β=0.2 사용

 

통계적 판단의 원리

  • 모집단(population) : 우리가 알고자 하는(연구대상이 되는) 전체.
  • 표본 : 모집단을 잘 대표하기를 기대하며 추출한 모집단의 일부.

 

 

모집단 조사방법은 총조사(census)와 표본조사로 나뉨. 총조사는 많은 비용, 시간이 소요돼 보통 표본조사 실시.
모수(parameter) : 모집단 전체에 대해 계산한 값
통계량(statistic) : 표본으로부터 얻어지는 여러 가지 측정값
모집단 모수 모평균 모분산 모 표준편차 모 상관계수 모 분율 모 회귀계수
표본 표본통계량 표본평균 표본분산 표본 표준편차 표본 상관계수 표본 분율 표본 회귀계수
신뢰구간
표준오차

 

 

자료의 종류

  • 측정 : 표본조사나 실험 과정에서 추출된 원소나 실험단위로부터 주어진 목적에 적합하도록 관측해 자료를 얻는 것
  • 측정방법
    • 명목척도=명칭척도 : 측정대상이 어느 집단(범주)에 속하는지 분류. 수학적 연산 불가능.
    • 순서척도=순위척도 : 측정대상의 특성이 가지는 서열관계 관측. 일정한 순서.  예) 특정 서비스 선호도 문항(아주 좋아한다, 좋아한다, 그저 그렇다, 싫어한다, 아주 싫어한다)
    • 등간척도=구간척도=간격척도 : 측정대상이 갖는 속성의 양 측정. 절대영점 없음.  예) 온도, 지수 등
    • 비율척도=비척도 : 절대영점 존재. 모든 사칙연산 가능. 제일 많은 정보 보유.  예) 무게, 나이, 연간소득, 가격 등
질적자료: 명목척도와 순서척도로 측정된 자료
양적자료: 구간척도와 비율척도로 측정된 자료

 

확률 및 확률분포

  • 확률 : 특정사건이 일어날 가능성의 척도
  • 표본공간(sample space, ) : 통계적 실험 실시 시 나타날 수 있는 모든 결과들의 집합
  • 사건(event) : 표본공간의 부분집합
  • 조건부 확률(conditional probability, P(B|A) ) : 사건A가 일어났다는 가정하의 사건B의 확률. P(A) >0이어야 함.
  • 확률변수 : 특정값이 나타나는 가능성이 확률적으로 주어지는 변수. 정의역(domain)이 표본공간이고 치역(range)이 실수값인 함수. 이산형 확률변수와 연속형 확률변수가 있음.
    • 이산형 확률변수(discrete random variable) : 사건의 확률이 그 사건들이 속한 점들의 확률의 합으로 표현할 수 있는 확률변수   예) 확률분포, 이항분포, 다항분포, 기하분포, 포아송분포 등
    • 연속형 확률변수(continuous random variable) : 사건의 확률이 그 사건 위에서 어떤 0보다 큰 값을 가진 함수의 면적으로 표현될 수 있는 확률변수   예) 균일분포, 정규분포, 지수분포, t-분포 등
근원사건 : 오직 한 개의 원소로만 이루어진 사건
배반사건 : 교집합이 공집합인 사건들
n(A)는 집합 A에 있는 원소의 수
비대칭분포 : 측정값들이 좌우대칭이 아니고 꼬리가 오른쪽이나 왼쪽으로 크게 치우친 경우
산포도
- 범위(range) : 최대값-최소값
 cf) 사분위범위 : 제1사분위수와 제3사분위수 사이의 범위. 전체 관측치의 50% 포함
- 정상범위(normal range) : 전체 관측치의 95% 포함하는 범위
- 분산(variance) : 봉우리가 하나고 좌우가 대칭인 분포의 산포도 표시에 가장 좋은 방법
- 표준편차(standard deviation) : 인위적으로 제곱을 해준 제곱단위인 분산을 원래의 단위로 재환원한 결과
* 원래 알고 싶은 건 표준편차지만, 제곱을 안할 경우 0이 나오므로 제곱 후 루트를 씌워서 알아내는 방식 취함
- 변이계수(coefficient of variation, CV) : 산포도 비교를 위해 산포도를 평균값으로 나눠 표준화된 값.

 

모수적 통계분석과 비모수적 통계분석

  • 모수적 통계분석 : 표본이 특정 분포를 따른다고 하는 경우 모집단에 대한 가정을 전제. 가정된 분포의 모수(모평균, 모분산 등)에 대해 가설 설정
  • 비모수적 통계분석 : 표본의 수가 매우 적거나(10개 이하) 변수 분포가 특정 분포를 따른다고 가정할 수 없는 경우 대안적으로 사용. 가정된 분포가 없어 분포의 형태(분포의 형태가 동일하다/동일하지 않다)에 대해 가설 설정.
자료의 성격 모수적 통계분석 비모수적 통계분석
2개의 독립된 자료
예) 자사와 경쟁사 제품 만족도
* 등분산성 검토
t-test 윌콕슨의 순위합검정(rank sum test), 만-위트니의 U검정, Median test
2개의 짝지어진 자료
예) 자사 동일한 고객에게 2번 만족도 조사
* 정규성 검토
paired t-test 윌콕슨의 부호순위합검정(signed rank test)
3개 이상의 자료
* 정규성, 등분산성 검토
ANOVA(분산분석법) Kruskal-Wallis test
제 3의 변수의 영향을 보정 2-way ANOVA Friedman;s 2-way ANOVA
상관성 분석 Pearson's correlation 스피어만의 순위상관계수, Kendall's tau test

 

 

<SPSS 메뉴 경로>
- 표본평균과 모평균과의 차이 검정 : 분석 > 평균비교 > 일표본T검정

- 독립 t-test
① 분석 > 평균비교 > 독립표본 T검정  ② 검정변수 선택 > 집단변수 선택 > 집단정의
* Levene의 등분산 검정 : 귀무가설 하에 F분포를 따르며, 집단에서 추정된 통합분산을 공통으로 사용. 해당 유의확률이 0.05보다 클 경우 두 집단 간 분산이 같다"는 귀무가설을 채택하여 등분산 만족
* 평균의 동일성에 대한 T검정 : 유의확률이 0.05보다 클 경우 귀무가설 채택

- 짝을 이룬 두 개의 평균치의 모집단 차이 검정(paired t-test) : 분석 > 평균비교 > 대응표본 T검정
 * difference variable 만들어주기 위해 변환 > 변수계산>목표변수 및 숫자표현식
 * 정규성 검토 : 히스토그램을 그리거나, Kolmogorov-Smirnov 검정 활용. 이때 귀무가설은 "정규분포를 따른다"임.

- 히스토그램으로 정규성 검토 : ① 그래프 > 레거시 대화상자 > 히스토그램 메뉴 선택  ② 변수선택 > 정규곡선 표시 체크 > 패널기준 행 변수 이동

- Kolmogorov-Smirnov 검정으로 정규성 검토 : ① 보고서 > 기술통계량 > 데이터 탐색  ② 변수선택 > 도표선택 > 검정과 함께 정규성도표 표시

- ANOVA : ① 분석 > 일반선형모형 > 일변량  ② 종속변수와 고정요인 선택 > 사후분석 검정변수 선택 > 등분산 가정시 사후분석방법 선택   ③ 일변량 분석 화면 내 옵션에서 동질성 검정 선택
 * ANOVA는 어떤 집단의 분산이 차이가 있는지 알 수 없기 때문에 사후 분석 해야 함.

 

총분산
급내분산
급간분산
F-통계량 : 급간분산/급내분산

 

 

다중비교

분산분석에서 통계적으로 유의한 차이가 있는 것으로 나왔다면, 몇 개의 표본평균이 차이가 나는 것인지 알아보는 방법

방법이 매우 다양. 의학연구에서는 보통 Tukey법이나 Schffe법 사용

 


기초 통계분석

이론분포

  • 정규분포(normal distribution) : 통계분석에 많이 이용되는 가장 중요한 분포. 평균과 표준편차에 따라 다양한 형태가 존재함. 참고로 ±2σ의 범위는 95% 신뢰수준 의미
  • 표준정규분포(standard normal distribution)

 

표준화: 정규분포의 평균을 0으로 평행이동시키고, 분산을 1이 되게 하는 것
정상범위 : 평균±1.96*표준(+는 상한값, -는 하한값)
*1.96은 Z분포에서 2σ의 Z값
표준 : 표본에서 측정한 실측자료의 퍼져 있는 산포도를 표시하는 통계량. 모집단 추론 불가능
 * 정상범위는 표본에 대한 이야기임
신뢰구간 : 평균±1.96*표준(+는 상한값, -는 하한값). 평균값으로부터 ±2σ(95% 신뢰수준)에 가까운 어떤 값과 표준편차의 곱 만큼의 거리. 이 거리에 해당하는 곡선의 면적이 전체 면적의 95%에 해당
* 1.96은 Z분포에서 2σ의 Z값
* ±1σ(68% 신뢰수준), ±2σ(95% 신뢰수준), ±3σ(99% 신뢰수준)
표준(standard error) : 표본평균값들로 이루어진 분포의 표준편차. 즉 표준편차를 표본수에 루트를 씌워 나눈것
신뢰수준 : 연구자가 미리 정하는 확률임    예) 95% 신뢰수준, 99% 신뢰수준

 

<모평균치 신뢰구간의 추정방법>
- 모분산을 아는 경우 : 기본 신뢰구간 추정식
- 모분산을 모르고 표본 수 30개 이상 : z분포 
- 모분산을 모르고 표본 수 30개 미만 : t분포
- 모분율 : 이항분포

 

 

기술통계

자료를 요약하는 기초적 통계. 본격적인 데이터 분석 전에 데이터에 대한 대략적인 이해와 이후 분석에 대한 통찰력을 얻기에 유리.

 

 

관련 R함수

  • data(데이터 이름) : 내장된 데이터 프레임을 워크스페이스 안에 로드하여 쓸 수 있게 해주는 함수
  • head(데이터 이름) : 데이터를 기본 6줄을 보여줘서 데이터가 성공적으로 import되었는지를 살펴 볼 수 있는 함수
  • head(데이터 이름, n) : import한 데이터의 특정 라인까지 보고 싶을 경우 n에 숫자 지정해주면 됨
  • summary(데이터 이름) : 데이터의 각 컬럼에 대한 전반적인 기초 통계량을 보여줌
* 데이터 양이 방대하고 컬럼 수가 많은 경우 아래 함수들을 이용해 개별 통계량을 구할 수 있다
데이터네임$컬럼명 : 데이터의 특정 컬럼 선택 시


mean(데이터 이름$컬럼명) : 특정 컬럼 평균 구하기
median(데이터 이름$컬럼명) : 특정 컬럼 중앙값
sd(데이터 이름$컬럼명) : 특정 컬럼 표준편차
var(데이터 이름$컬럼명) : 특정 컬럼 분산
max(데이터 이름$컬럼명) : 특정 컬럼 최대값
min(데이터 이름$컬럼명) : 특정 컬럼 최소값
quantile(데이터 이름$컬럼명, 1/4) : 특정 컬럼 1사분위수
quantile(데이터 이름$컬럼명, 3/4) : 특정 컬럼 3사분위수

 

 

회귀분석(Regression Analysis) 

  • 하나나 그 이상의 변수들이 또다른 변수에 미치는 영향에 대해 추론할 수 있는 통계기법
  • 두 변수가 적어도 간격척도 이상의 연속 변수이면서 인과관계나 선후관계가 있는 것이 확실한 경우 적용
  • 회귀계수(β)는 관련성의 정도(직선의 기울기)를 +,- 여부는 방향을 보여줌
  • 회귀분석의 종류
    1. 단순(선형)회귀 : 가장 단순한 회귀모형. 독립변수 1개, 종속변수 1개로 이루어져 있고, 오차항이 있는 선형관계
    2. 다중회귀 : 2개 이상의 독립변수를 사용하여 종속변수의 변화를 설명(단순선형회귀모형으로 종속변수 변동의 설명이 충분치 않은 경우). 독립변수와 종속변수의 관계가 선형(1차 함수)
    3. 다항회귀 : 2개 이상의 독립변수. 종속변수와의 관계가 1차 함수 이상
    4. 비선형회귀 : 회귀식의 모양의 미지의 모수드르이 선형관계로 이루어져 있지 않은 모형

 

독립변수=설명변수 : 영향을 주는 변수. 보통 x1, x2, x3 등으로 표기.
종속변수=반응변수 : 영향을 받는 변수. 보통 y로 표기.
오차항 : 보통의 경우 평균이 0이고 분산이 σ²인 정규모형을 따른다고 가정함.

 

회귀모형의 적절성 판단

  • 모형이 통계적으로 유의미한가? : F통계량 확인. 유의수준 5% 하에서 F통계량의 p-값이 0.05보다 작으면 추정된 회귀식은 통계적으로 유의
  • 회귀계수들이 유의미한가? : 해당 계수의 t통계량과 p-값 또는 신뢰구간 확인
  • 모형이 얼마나 설명력을 갖는가? : 결정계수(0~1) 확인. 값이 높을수록 추정된 회귀식의 설명력이 높음
  • 모형이 데이터를 잘 적합하고 있는가? : 잔차를 그래프로 그리고 회귀진단
  • 데이터가 아래의 모형 가정을 만족시키는가?
    • 정규성=정상성 : 잔차항이 정규분포 이뤄야 함. normal Q-Q plot 그래프의 점들이 45도 각도의 직선 위에 있어야 정규성  가정 만족
    • 등분산성 : 독립변수의 모든 값에 대해 오차들의 분산이 일정. 잔차가 랜덤하게 잘 퍼져 있어야 함,
    • 선형성 : 독립변수의 변화에 따라 종속변수도 일정크기로 변화. 잔차의 산포도 분석을 통해 파악함. 잔차와 예측치 간에 관계가 존재하면 안됨(잔차들이 0을 중심으로 균등하게 흩어져 있어야 함)
    • 독립성 : 잔차와 독립변수의 값이 관련돼 있지 않음
    • 비상관성 : 관측치들의 잔차들끼리 상관이 없어야 함

 

 

F통계량
결정계수(coefficient of determination, R제곱) : 데이터의 총 변동 중 회귀직선에 의한 비율 확인(설명의 정도를 알려주는 지표). 한 변수의 변동을 나머지 한 변수의 변동이 설명하는 능력
잔차 : 관찰치와 추정치와의 차이. 적합한 모형에서 나온 잔차는 정규분포를 따르고 분산이 일정하고, 특별한 추세를 보이지 말아야 함(추세를 보인다면 모형에 포함되어야 할 정보가 빠졌다는 얘기임)

 

 

최적회귀방정식의 선택: 설명변수의 선택

  • 원칙
    • y에 영향을 미칠 수 있는 모든 독립변수 x들을 y의 값을 예측하는데 참여시킴
    • 가능한 범위 내에서 적은 수의 설명변수를 포함시켜야 함
  • 설명변수 선택방법
    • 모든 가능한 조합의 회귀분석: 가장 작은 값을 갖는 모형을 최적의 모형으로 선택
      • AIC(Akaike information criterion)
      • BIC(Bayesian information criterion)
    • 단계적 변수선택
      • 전진선택법(forward selection)
      • 후진제거법(backward elimination)
      • 단계별방법(stepwise method)

 

분산분석표 : 회귀분석으로 설명이 가능한 값과 가능하지 않은 값에 대한 설명. F-검정통계량과 p-값을 보고 판단
결정계수(coefficient of determination, R제곱) : 데이터의 총 변동 중 회귀직선에 의한 비율 확인(설명의 정도를 알려주는 지표). 한 변수의 변동을 나머지 한 변수의 변동이 설명하는 능력
잔차분석
가능도(likelihood) : 확률분포 함수의 y값. 어떤 결과값이 일어날 확률

 

 

관련 R함수

  • set.seed() : 난수를 생성할 때 같은 난수가 나오도록 고정시키는 역할. 하나의 정수 인자를 받음.
  • lm() : lm() : 단순선형회귀분석
  • runif(n, min, max) : min~max 범위 내의 n개의 난수 생성. n은 생성할 난수의 개수, min은 난수 최소값, max는 난수 최대값
  • rnorm
  • plot(데이터프레임) : 산점도
  • step(lm(종속변수~설명변수, 데이터세트), scope=list(lower=~1, upper=~설명변수), direction="변수 선택방법" : lm은 사용분석방법이 회귀분석임을 보여준다. scope는 분석할 때 고려할 변수의 범위를 정한다. lower에서 1을 입력하면 상수항을 의미하고, 가장 높은 단계를 설정하기 위해서는 upper에 설명변수들을 모두 써주면 된다. direction은 변수 선택방법으로 forward, backward, both의 옵션이 있다.
  • 벡터명 <- read.csv("파일경로\\파일명.csv", header=TRUE)
  • plot(lm(y~x, data=데이터명)

 * R에서 구체적인 디렉터리를 설정해 외부 데이터세트를 읽을 때 역슬래시는 2번 해줘야 한다(\\)

 


다변량 분석

상관분석(Correlation Analylsis) 

데이터 안의 두 변수 간의 관계를 파악하는 분석

 

상관계수(Correlation coefficient)

  • 두 변수의 상관관계를 알아보기 위해 이용
  • 상관계수가 양수일 때는 x 증가 시 y도 증가. 음수일 때는 x 증가시 y 감소 경향
  • 종류
    • 피어슨 상관계수(Pearson correlation) : 등간척도 이상으로 측정되는 두 변수들 간의 상관관계. 두 변수 간의 선형관계의 크기를 측정하는 값. 비선형적인 상관관계는 나타내지 못함
    • 스피어만 상관계수(Spearman correlation) : 서열척도인 두 변수들의 상관관계를 측정하는 데 사용. 두 변수 간의 비선형적인 관계도 나타낼 수 있는 값

 

 

다차원 척도법(Multidimensional Scaling, MDS)

  • 여러 대상 간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수공간의 점들로 배치시키는 방법. 
  • 주어진 거리는 추상적 거리, 실수 모두 가능. 남북의 방향과 무관하게 상대적인 거리만을 유지하여 회전/대칭/확대/축소를 해도 각 위치의 상대적 거리는 변하지 않음.
  • 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용됨
  • 분석방법 : 개체들의 거리 계산에는 유클리드 거리행렬을 활용. 관측대상들의 상대적 거리의 정확도를 높이기 위해 적합정도를 스트레스 값으로 나타냄.
  • 종류
    • 계량적 MDS(metric MDS) : 데이터가 구간척도나 비율척도인 경우 활용
    • 비계량적 MDS(nonmetirc MDS) : 데이터가 순서척도인 경우 사용

* 마케팅 분야에서는 포지셔닝 맵을 만드는 용도로 비계량적 MDS를 주로 사용함. 시장과 경쟁구조에 대한 기초 진단을 통해 소비자의 인식, 선호, 선택에 이르는 일련의 과정을 일관성 있게 이해할 수 있도록 하여 제품 개발, 시장 세분화, 포지셔닝, 마케팅믹스 전략에 이용.

 

 

주성분 분석(Principal Component Analysis, PCA)

  • 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법.
  • 목적 : 주로 자료의 차원을 축약시켜 데이터를 쉽게 이해, 관리하는 데 사용
  • 먼저 추출되는 주성분 요인일수록 입력변수들이 가진 총분산을 많이 설명할 수 있도록 주성분 요인을 순차적으로 추출함.
  • 주성분들은 서로 상관관계가 없고, 주성분들의 분산의 합은 Xi들의 분산의 합과 같다
  • 활용
    • 다중공선성 존재 시 상관성이 적은 주성분으로 변수를 축소하여 회귀분석이나 의사결정나무 등의 모형 개발에 활용
    • 주성분분석으로 차원 축소 후 군집분석 수행 시 군집화결과의 연산속도 개선
    • 주성분분석으로 차원 축소 후 시계열로 분포/추세 변화를 분석하여 기계의 고장 징후를 사전에 파악하는 데 활용
  • 선택방법
    • summary에서 누적기여율(cumulative proportion)이 85% 이상이면 주성분의 수로 결정할 수 있음
    • 스크리 테스트(scree test)를 그래프화하여 기울기가 급하강하다가 갑자기 완만해지는 곳 주변에서 요인의 수 결정

* 마케팅 분야에서는 크게 활용 안하지만 빅데이터 관련해서는 생각해볼 필요 있음.

* 주성분분석 결과에서 분산의 비율(Proportion of Variance) 수치가 각 주성분이 전체 분산을 설명해주는 %를 보여준다

주성분분석은 총분산을 이용해 요인을 추출하고, 공통요인분석은 공통분산을 이용해 요인을 추출함. 주성분분석은 소수의 요인을 추출하는게 목적으로, 공통분산이 크다는 걸 알 때 적절. 공통요인분석은 분산구성에 대한 사전 지식이 없을 때 적절

 

요인분석: 변수를 줄여주는 역할을 함. 변수 정의가 필요.
- 확인적 요인분석 : 기존 자료 기준으로 요인 검증
- 탐색적 요인분석 : 새로운 요인 추출. 포함하는 변수에 따라 요인 이름을 새로 부여
  주성분분석 요인분석
생성된 변수의 이름 제1주성분(PC1), 제2주성분(PC2)으로 표현 분석자가 요인(factor)의 이름을 명명
생성된 변수들 간의 관계 먼저 추출되는 주성분일수록 중요함. 기본적으로 대등한 관계
분석방법의 의미 목표변수를 고려하여 목표변수를 잘 예측/분류하기 위해 원래 변수들의 선형결합으로 이뤄진 주성분을 찾음 목표변수를 고려하지 않고 데이터가 주어지면 비슷한 성격들로 묶어서 새로운 잠재변수 생성
투입변수와 생성변수의 개수 입력변수의 개수와 주성분의 개수가 같아야 함(n개의 입력변수들이 가지는 총분산을 n개의 주성분으로 다시 나타냄.) 요인의 개수는 투입변수보다 적을 수 있음
총분산 = 공통분산 + 고유분산 + 오차분산
스크리 그림(Scree plot) : 각 주성분의 분산의 크기를 그림으로 그려준 것으로, 주성분의 분산의 감소가 급격하게 줄어들어 주성분의 개수를 늘릴 때 얻게 되는 정보의 양이 상대적으로 미미한 지점에서 주성분의 개수를 정하는 것이 하나의 방법임,

 

 

관련 R함수

  • plot(변수1, 변수2) : 데이터세트의 두 변수간의 산점도 그리기
  • cor(변수1, 변수2) : 두 변수의 상관계수를 구함
  • cov(데이터세트) : 공분산 구하기
  • rcorr(as.matrix(데이터세트), type="spearman") : 스피어만 상관계수
  • cmdscale(데이터세트) : 상대적 위치를 도식화할 수 있는 XMY 좌표를 계산
  • princomp(데이터세트, cor=TRUE) : 주성분분석 함수. cor=TRUE 옵션은 주성분분석을 공분산행렬이 아닌 상관계수 행렬을 사용해 수행하도록 함.
  • loadings(주성분결과를 저장한 이름) : 주성분들의 로딩 벡터를 보여줌
  • 주성분결과를 저장한 이름$scores : 각 관측치를 주성분들로 표현한 값
  • biplot(주성분결과를 저장한 이름) : 주성분결과에 대해 biplot 그래프 그리기
  •  

시계열 예측

시계열 분석(Time-series Analysis)

  • 시계열 자료의 분석을 통해 미래의 값을 예측하고, 경향, 주기, 계절성을 파악하여 활용
  • 시계열 자료(Time-series Data) : 시간의 흐름에 따라서 관측된 데이터
    • 비정상성 시계열 자료 : 시계열 분석 실시할 때 다루기 어려운 자료. 대부분의 시계열 자료가 여기에 해당. 정상성의 3가지 조건 중 하나라도 만족하지 못한 경우의 시계열자료
    • 정상성 시계열 자료 : 비정상 시계열 자료를 핸들링해 다루기 쉬운 시계열 자료로 변환한 자료. 모든 시점에 대해 일정한 평균을 갖거나(항상 그 평균값으로 회귀하려는 경향이 있고 평균값 주변에서의 변동은 대체로 일정한 폭을 가짐) 분산이 특정시점에 의존하지 않는 경우가 해당
  • 정상성(Stationary)를 만족해야 함 : 일정한 평균, 일정한 분산, 공분산은 단지 시차에만 의존(시점에는 의존 안함)
  • 시계열 분석방법
    • 장기예측: 회귀분석 방법 활용
    • 단기예측 : Box-Jenkins 방법, 지수평활법, 시계열 분해법 활용
  • 시계열 모형
    1. AR모형(자기회귀모형, Autoregressive model) : 현 시점의 자료가 p 시점 전의 유한 개의 과거 자료로 설명될 수 있다는 의미. AR(p)모형이라 함. 현 시점의 시계열 자료에 몇 번째 전 자료까지 영향을 주는지 알아내는 데 있음.
      • 판단방법: 모형식별을 위해 자료에서 자기상관함수(ACF), 부분자기상관함수(PACF, Partial ACF)를 이용하여 식별. 일반적으로 자기상관함수는 시차가 증가함에 따라 점차적으로 감소하고 부분자기상관함수는 p+1시차 이후 급격히 감소하여 절단된 형태이며 이를 AR(p) 모형이라고 판별함
      • AR(1)모형(1차 자기회귀모형) : 과거 1시점 이전의 자료만 영향을 주는 모형
      • AR(2)모형 (2차 자기회귀모형) : 과거 2시점 전 자료까지 영향을 주는 모형
    2. MA모형(이동평균모형, Moving Average model) : 시계열 자료를 모형화하는데 AR모형 다음으로 많이 쓰이는 모형
      • 항상 정상성 만족(정상성 가정이 필요없음)
      • 판단방법 : 자기회귀모형와 반대로 자기상관함수(ACF)는 p+1 시차 이후 절단된 형태가 되고, 부분자기상관함수(PACF)는 점차 감소되는 형태를 보임
    3. ARIMA 모형(자기회귀누적이동평균모형, Autoregressive Integrated Moving Average model) : 대부분의 많은 시계열자료가 따르는 모형.
      • 기본적으로 비정상적 시계열이기 때문에 차분이나 변환을 통해 AR모형, MA모형, ARMA모형으로 정상화 가능
      • ARIMA(p, d, q) 모형은 차수 p,d,q의 값에 따라 모형의 이름이 달라짐. 차수 p는 AR모형과 관련이 있고, q는 MA모형, d는 ARIMA에서 정상화할 때 몇 번 차분했는지를 의미
        • d=0 : ARMA(p,q)모형이라 부름. 정상성 만족
        • p=0 : IMA(d,q)모형. 이를 d번 차분한 시계열모형이 MA(q)모형을 따름
        • q=0 : ARI(q,d)모형. 이를 d번 차분한 시계열모형이 AR(p)모형을 따름
    4. ARMA모형(자기회귀이동평균모형, Autoregressive Moving Average model) : Box-Jenkins법(동정, 추정, 진단)으로 작성. 비정상시계열인 ARIMA(p,d,q)에서 차분 d를 취해 정상시계열에 접근시켜 분석
  • 분해시계열 : 시계열에 영향을 주는 일반적 요인을 시계열에서 분리해 분석하는 방법. 회귀분석적 방법 주로 사용
    • 아래의 시계열 구성요인을 정확하게 분리하는 것이 중요하나, 쉽지 않음.
    • 이론적 약점은 있지만, 경제분석이나 예측에서 성공적으로 사용됨 
    • 시계열 구성 요소
      • 추세요인 : 자료가 어떤 특정한 형태를 취함(선형적 추세, 이차식 형태, 지수적 형태 등)
      • 계절요인 : 고정된 주기에 따라 자료가 변화
      • 순환요인 : 알려지지 않은 주기에 따라 자료가 변화
      • 불규칙요인 : 위 세 가지 요인으로 설명할 수 없는 회귀분석에서 오차에 해당하는 요인

 

차분 : 현시점 자료값에서 전시점 자료값을 빼는 것. 일반차분(바로 전시점의 자료를 빼는 방법)과 계절차분(계절성을 갖는 자료를 여러 시점 전의 자료를 빼는 것)이 있음.

* 정상성 시계열 자료의 평균이 일정하지 않으면 차분(difference)를 정상화함

지수평활법 : 과거일수록 기간에 부여하는 가중치가 지수함수적으로 감소하게 적용하므로 단기예측에 활용
백색잡음과정

댓글