목차
반응형
1. 소개
- 소개
- 시계열 데이터 분석에 사용하는 통계적 예측 모델
- 사용 분야
- 시계열 데이터의 패턴을 만드는 계절성, 추세를 학습하는데 효과적
- 경제 분석, 판매 예측, 에너지 수요 예측, 기후 및 기상분야 등에 사용
2. 수식
2.1. AR(p)
$$ X_t = c + \phi_1X_{t-1} + \phi_2X_{t-2} + ... + \phi_pX_{t-p} + \varepsilon_t $$
2.2. MA(q)
$$ X_t = c + \varepsilon_t + \theta_1\varepsilon_{t-1} + \theta_2\varepsilon_{t-2} + ... + \theta_q\varepsilon_{t-q} $$
2.3. I(d)
$$ \Delta^d X_t = (1 - B)^d X_t = X_t - X_{t-d} = \varepsilon_t $$
2.4. ARIMA(p, d, q) 모델
- $X_t$는 시점 t에서의 시계열 데이터 값을 나타냅니다.
- $\phi_1$, $\phi_2$, ..., $\phi_p$는 자기회귀 계수
- $\varepsilon_t$, $\varepsilon_{t-1}$, $\varepsilon_{t-2}$, ..., $\varepsilon_{t-q}$는 예측 오차(residuals)
- $\theta_1$, $\theta_2$, ..., $\theta_q$는 이동평균 계수
- c는 상수항
- p는 자기회귀의 차수를, q는 이동평균의 차수를 나타냅니다.
- d는 차분(Differencing)의 차수를 나타냄니다. 여기서 B는 시차(lag) 연산자를 의미하며, (1 - B)^d는 차분 연산을 나타냅니다.
$$ \Delta^d X_t = c + \phi_1\Delta^d X_{t-1} + \phi_2\Delta^d X_{t-2} + ... + \phi_p\Delta^d X_{t-p} + \varepsilon_t + \theta_1\varepsilon_{t-1} + \theta_2\varepsilon_{t-2} + ... + \theta_q\varepsilon_{t-q} $$
3. 연산 상세 설명
- B는 라그 연산자(Lag operator)를 의미한다. 라그 연산자는 시계열 데이터에서 한단계 이전의 값을 나타낸다. 즉 (1-B)X 의 의미는 현재시점(t)에서 이전시점(t-1)를 빼준 것으로 해석할 수 있다.
- d가 커질수록 차수가 커져 복잡한 식이 된다.
- 추세 제거(Trend Removal)
- 1차 차분을 통해 선형성을 제거할 수 있다. 이렇게 계산된 일차 차분된 시계열에는 이전 관측치의 영향이 제거되며, 차분을 거친 시계열 데이터는 추세가 제거된 상태로 변환됩니다.
$$ (1-B)^d $$
4. 한계점
- 정상성 가정: ARIMA모델은 시계열 데이터가 정상성을 가진다고 가정함. 정상성은 평균과 분산이 시간에 따라 일정하다는 것을 의미함. 하지만 추세나 계절성과 같은 비정상적인 패턴이 존재할 수 있음. 이런 경우 차분(differencing)을 통해 정상성을 만족하는 데이터로 변환해야 한다.
- 이상치 및 이벤트 처리: ARIMA 모델은 정상성을 기반으로 예측을 수행하기 때문에 이상치나 예기치 않은 이벤트에 대해서는 취약
- 장기적 예측: 과거 데이터를 기반으로 미래를 예측하는데 사용, 장기적인 예측에는 한계가 있음
반응형
'통계' 카테고리의 다른 글
[시계열] ARMA 모델 (Autoregressive Moving Average) (0) | 2023.06.20 |
---|---|
[시계열] SARIMA 모델(Seasonal AutoRegressive Integrated Moving Average) (0) | 2023.06.20 |
[시계열] MA 모델(이동평균, Moving Average) (0) | 2023.06.13 |
[시계열] AR 모델(Autoregressive, 자기회귀) (1) | 2023.06.13 |