인공지능 개발자 수다(유튜브 바로가기) 자세히보기

통계

[시계열] ARIMA 모델(Autoregressive Integrated Moving Average)

Suya_03 2023. 6. 21. 09:21

목차

    반응형

    1. 소개 

    • 소개
      • 시계열 데이터 분석에 사용하는 통계적 예측 모델
    • 사용 분야
      • 시계열 데이터의 패턴을 만드는 계절성, 추세를 학습하는데 효과적
      • 경제 분석, 판매 예측, 에너지 수요 예측, 기후 및 기상분야 등에 사용

    2. 수식

    2.1. AR(p) 

    $$ X_t = c + \phi_1X_{t-1} + \phi_2X_{t-2} + ... + \phi_pX_{t-p} + \varepsilon_t $$

    2.2. MA(q) 

    $$ X_t = c + \varepsilon_t + \theta_1\varepsilon_{t-1} + \theta_2\varepsilon_{t-2} + ... + \theta_q\varepsilon_{t-q} $$

    2.3. I(d)

    $$ \Delta^d X_t = (1 - B)^d X_t = X_t - X_{t-d} = \varepsilon_t $$

     

    2.4. ARIMA(p, d, q) 모델

    • $X_t$는 시점 t에서의 시계열 데이터 값을 나타냅니다.
    • $\phi_1$, $\phi_2$, ..., $\phi_p$는 자기회귀 계수
    • $\varepsilon_t$, $\varepsilon_{t-1}$, $\varepsilon_{t-2}$, ..., $\varepsilon_{t-q}$는 예측 오차(residuals)
    • $\theta_1$, $\theta_2$, ..., $\theta_q$는 이동평균 계수
    • c는 상수항
    • p는 자기회귀의 차수를, q는 이동평균의 차수를 나타냅니다.
    • d는 차분(Differencing)의 차수를 나타냄니다. 여기서 B는 시차(lag) 연산자를 의미하며, (1 - B)^d는 차분 연산을 나타냅니다.

    $$ \Delta^d X_t = c + \phi_1\Delta^d X_{t-1} + \phi_2\Delta^d X_{t-2} + ... + \phi_p\Delta^d X_{t-p} + \varepsilon_t + \theta_1\varepsilon_{t-1} + \theta_2\varepsilon_{t-2} + ... + \theta_q\varepsilon_{t-q} $$

    3. 연산 상세 설명

    • B는 라그 연산자(Lag operator)를 의미한다. 라그 연산자는 시계열 데이터에서 한단계 이전의 값을 나타낸다. 즉 (1-B)X 의 의미는 현재시점(t)에서 이전시점(t-1)를 빼준 것으로 해석할 수 있다. 
    • d가 커질수록 차수가 커져 복잡한 식이 된다.
    • 추세 제거(Trend Removal)
      • 1차 차분을 통해 선형성을 제거할 수 있다. 이렇게 계산된 일차 차분된 시계열에는 이전 관측치의 영향이 제거되며, 차분을 거친 시계열 데이터는 추세가 제거된 상태로 변환됩니다.

    $$ (1-B)^d $$

    4. 한계점

    • 정상성 가정: ARIMA모델은 시계열 데이터가 정상성을 가진다고 가정함. 정상성은 평균과 분산이 시간에 따라 일정하다는 것을 의미함. 하지만 추세나 계절성과 같은 비정상적인 패턴이 존재할 수 있음. 이런 경우 차분(differencing)을 통해 정상성을 만족하는 데이터로 변환해야 한다.
    • 이상치 및 이벤트 처리: ARIMA 모델은 정상성을 기반으로 예측을 수행하기 때문에 이상치나 예기치 않은 이벤트에 대해서는 취약
    • 장기적 예측: 과거 데이터를 기반으로 미래를 예측하는데 사용, 장기적인 예측에는 한계가 있음
    반응형