인공지능 개발자 수다(유튜브 바로가기) 자세히보기

통계

[시계열] ARIMA 모델(Autoregressive Integrated Moving Average)

Suda_777 2023. 6. 21. 09:21
반응형

1. 소개 

  • 소개
    • 시계열 데이터 분석에 사용하는 통계적 예측 모델
  • 사용 분야
    • 시계열 데이터의 패턴을 만드는 계절성, 추세를 학습하는데 효과적
    • 경제 분석, 판매 예측, 에너지 수요 예측, 기후 및 기상분야 등에 사용

2. 수식

2.1. AR(p) 

Xt=c+ϕ1Xt1+ϕ2Xt2+...+ϕpXtp+εt

2.2. MA(q) 

Xt=c+εt+θ1εt1+θ2εt2+...+θqεtq

2.3. I(d)

ΔdXt=(1B)dXt=XtXtd=εt

 

2.4. ARIMA(p, d, q) 모델

  • $X_t$는 시점 t에서의 시계열 데이터 값을 나타냅니다.
  • $\phi_1$, $\phi_2$, ..., $\phi_p$는 자기회귀 계수
  • $\varepsilon_t$, $\varepsilon_{t-1}$, $\varepsilon_{t-2}$, ..., $\varepsilon_{t-q}$는 예측 오차(residuals)
  • $\theta_1$, $\theta_2$, ..., $\theta_q$는 이동평균 계수
  • c는 상수항
  • p는 자기회귀의 차수를, q는 이동평균의 차수를 나타냅니다.
  • d는 차분(Differencing)의 차수를 나타냄니다. 여기서 B는 시차(lag) 연산자를 의미하며, (1 - B)^d는 차분 연산을 나타냅니다.

ΔdXt=c+ϕ1ΔdXt1+ϕ2ΔdXt2+...+ϕpΔdXtp+εt+θ1εt1+θ2εt2+...+θqεtq

3. 연산 상세 설명

  • B는 라그 연산자(Lag operator)를 의미한다. 라그 연산자는 시계열 데이터에서 한단계 이전의 값을 나타낸다. 즉 (1-B)X 의 의미는 현재시점(t)에서 이전시점(t-1)를 빼준 것으로 해석할 수 있다. 
  • d가 커질수록 차수가 커져 복잡한 식이 된다.
  • 추세 제거(Trend Removal)
    • 1차 차분을 통해 선형성을 제거할 수 있다. 이렇게 계산된 일차 차분된 시계열에는 이전 관측치의 영향이 제거되며, 차분을 거친 시계열 데이터는 추세가 제거된 상태로 변환됩니다.

(1B)d

4. 한계점

  • 정상성 가정: ARIMA모델은 시계열 데이터가 정상성을 가진다고 가정함. 정상성은 평균과 분산이 시간에 따라 일정하다는 것을 의미함. 하지만 추세나 계절성과 같은 비정상적인 패턴이 존재할 수 있음. 이런 경우 차분(differencing)을 통해 정상성을 만족하는 데이터로 변환해야 한다.
  • 이상치 및 이벤트 처리: ARIMA 모델은 정상성을 기반으로 예측을 수행하기 때문에 이상치나 예기치 않은 이벤트에 대해서는 취약
  • 장기적 예측: 과거 데이터를 기반으로 미래를 예측하는데 사용, 장기적인 예측에는 한계가 있음
반응형