본문 바로가기

Statistics

시계열 데이터

정상성(stationary)

정상성, 비정상성 예시

평균, 분산이 시간에 따라 일정한 성질이다.
즉, 시계열 데이터의 특성이 시간의 흐름에 따라 변하지 않음을 의미한다.

 

이렇듯 정상성을 나타내지 않는 데이터는 복잡한 패턴을 모델링하여 분석하기 어렵기 때문에, 정상성을 갖도록 로그 변환, 차분 등 전처리 후 분석을 시행한다.

정상 시계열 변환

정상성을 나타내지 않는 데이터를 정상 시계열로 변환하는 방법은 다음과 같다.

  1. 변동폭이 일정하지 않은 경우 -> 로그 변환
  2. 추세, 계절성이 존재하는 경우 -> 차분(differencing, y_t - y_{t-1})

단, 1차 차분으로 정상성을 띄지 않으면, 차분을 반복한다.

예측 기법을 고려하기 전 시계열 패턴이 어떤지에 대해 파악해야 한다.

 

시계열 데이터 특성

서로 다른 패턴을 나타내는 4가지 시계열 예제

  •  추세(Trend)
    • 추세는 시간이 지남에 따라 데이터가 전반적으로 상승, 하락, 또는 일정한 방향성을 보이는 경향
    • 장기적인 관점에서 데이터의 변화 패턴
    • ex) 10년간 기온 데이터에서 점진적인 상승 추세를 보이는 경우.
  • 계절성(Seasonality)
    • 계절성은 데이터가 특정 주기(년, 월, 주 등)에 따라 반복되는 패턴을 보이는 것
    • 주기적인 요인(계절, 휴일 등)에 의해 영향
    • ex) 아이스크림 판매량은 여름에 증가하고 겨울에 감소하는 계절성을 보인다.
  • 순환(Circulation)
    • 계절성과 달리 주기가 고정되어 있지 않은 경우의 패턴
    • 비즈니스 사이클, 경제 변동 등에 의해 발생
    • ex) 경기 순환주기에 따른 실업률의 변동 -> 주로 경제 상황
  • 노이즈(Noise, 불규칙 변동)
    • 설명이 안되는 패턴 → 이것땜에 예측 어렵다.
  • 가법 모형(Additive model): 추세+계절+순환+노이즈
  • 승법 모형(Multiplicative model): 추세*계절*순환*노이즈

자기상관(Auto correlation)

시계열 데이터에서 시차(lag)에 따른 데이터 간의 상관관계를 나타낸다.
즉, 현재 시점의 데이터와 과거 시점의 데이터 사이의 연관성을 측정하는 것이다.

yt와 yt-k의 상관계수

 

* 백색잡음(white noise): 자기상관(autocorrelation)이 없는 시계열 (=상관계수가 서로
)

ACF(자기상관함수, AutoCorrelation Function)

자기상관을 나타낸 함수

ACF를 통해 시계열 데이터의 패턴(주기성, 트렌드, 계절성) 파악 가능

 

Google 종가

PACF(부분자기상관함수, Partial AutoCorrelation Function)

  • 중간에 있는 시차들의 영향을 제거한, t시점과 t-k의 직접적인 상관관계
  • AR 차수 결정
  • EX) 오늘, 그저께 주식 종가에 대한 PACF 계산?
    1. 어제 데이터로 오늘 주식 데이터 회귀분석 하고 잔차1 구함 -> 어제로 설명안된 오늘 종가 
    2. 그저께 데이터로 어제 주식 데이터 회귀분석 하고 잔차2 구함 -> 그저께로 설명안된 어제 종가
    3. 시차2의 PACF 값: 잔차1, 잔차2 의 상관관계

(P)ACF로 ARIMA의 파라미터 결정

잔차(Residuals)

e: 잔차, y: 실제값, yhat: 예측값

 

시계열 모델이 적합한 모델인가? 를 잔차로 파악할 수 있다.

  1. 잔차의 상관관계가 없다. (자기상관이 없다)
    - 상관관계가 있는 잔차는 모델에서 사용되지 않은 정보가 남아있다는 것을 나타냄
  2. 잔차의 평균이 0 (Unbiased)
    - 예측값이 실제 값을 중심으로 대칭적으로 분포함을 의미. 예측값의 평균이 실제값인가?

 

 

'Statistics' 카테고리의 다른 글

ANOVA 란?  (1) 2023.12.11
t-test 쉽게 이해하기  (1) 2023.12.11
통계적 가설검정 쉽게 이해하기  (2) 2023.11.30