* 작성자 : 16기 김진서
본 포스팅은 고려대학교 산업경영공학부 김성범 교수님 강의를 참고하여 작성되었습니다.
Q: 시계열 분석에 필요한 4가지 구성요소들은?
A: Trend ( 시간에 따른 변동 움직임 필요함), Seasonality ( seasonal variance 반영 ; 여름에 올라갔다가 나중에 내려가는 아이스크림 판매량), Noise / Irregularity (스파이크나 예측 가능하지 않은 변화모양), Cyclicity (일정 시간 주기로 비슷한 패턴이 반복되어야 함)
Q: 정상성이란 무엇인지?
A: 다른 시간 간격동안 1) 평균이 일정하고 2) 분산(표준편차)가 일정하며 3) Autocovariance 가 시간에 의존하지 않는다.
=> Trend와 Seasonality 가 시계열 자료가 stationary 하지 않게 되는 이유이다.
Q: ARMIA 모델은 무슨 모델 두개가 합쳐진 것인지? ARIMA 모델에 있는 3가지 parameters들은(p,d,q) 각각 무엇을 의미하는지?
A: AR(Auto regressive) + MA(Moving Average), p = auto regressive lag, d= order of differentiation, q= moving lag
=> ARIMA 를 위한 p,q를 쉽게 구하는 방법에는 PACF 플랏에서 y=0 되는 지점이 P, ACF 플랏에서 y=0되는 지점이 Q
Q: 지수평활법이란, 시간의 흐름에 따라 [ ]에 더 많은 [ ]를 부여하여 미래를 예측하는 방법입니다.
A: 최근, 가중치
$$ x_{1}, x_{2}, x_{3} ,,, x_{t} $$ ; A sequence of a random variable.
if t 가 시간이면 시간에 의한 sequence 로 해석될 수도 있음
X는 R.V (Random Variable)
$$ F_{x}(x) = P(X\leqslant x) $$ ; CDF
$$ E(X)=\mu x $$
$$ V(X)=E[(x-\mu x)^2]=\sigma x^2 $$
$$ Cov(X_{1},X_{2})= E[(x_{1}-\mu_{1})(x_{2}-\mu_{2})]=\sigma x_{1},x_{2} $$
Q: 그렇다면 자기 자신 끼리의 공분산은 뭐가 같을까요?
A: $$ Cov(X_{1},X_{1})=V(X_{1})=\sigma x_{1}^2 $$
$$ Corr(X_{1},X_{2})= \frac{Cov(X_{1},X_{2})}{\sqrt{V(X_{1})V(X_{2})}}= \frac{\sigma x_{1}x_{2}}{\sqrt{\sigma x_{1}^2 \sigma x_{2}^2}}= \frac{\sigma x_{1}x_{2}}{\sigma x_{1}\sigma x_{2}} $$
X와 Y가 independent 하면,
1) $$ E[XY] = E[X]E[Y] $$
2) $$ Cov(X,Y)=0 $$
3) $$ Cov(X+2, Y) = Cov(X,Y) + Cov(2,Y) = Cov(X,Y)+E[2Y]-E[2]E[Y]= Cov(X,Y) $$
4) 교환법칙 성립으로, $$ Cov(X,Y)=Cov(Y,X) $$
5) $$ Cov(aX,Y) = aCov(X,Y) $$
1) AutoCovariance: 자기 자신과의 Covariance (시간에 shift를 줘서 자신과 한두시점 자신과의 Covariance)
$$ Cov(X_{t}, X_{t+h})= \gamma _{x}(h) $$ 자주 나오니 기억해야 하는 function 이다.
성질을 알아보자.
1) $$ \gamma _{x}(0) = Cov(X_{t},X_{t})= V(X_{t}) = \sigma x_{t}^2 $$
h가 0이라는 뜻으로 시점에 차이가 없다. 그러므로 위와 같다.
2) $$ \gamma _{x}(-h) = Cov(X_{t},X_{t-h})= Cov(X_{t-h},X_{(t-h)+h}) = \gamma_{x}(h) $$
현시점과 과거 h 시점 전의 covariance (아까는 이후 지금은 이후)
결국, $$ \gamma_{x}(h) = \gamma_{x}(-h) \forall h $$
따라서, 이를 우리는 symmetric property 라고 합니다.
2) AutoCorrelation ; AutoCovariance 로 표현할 수 있다.
$$ \rho _{x}(h) = \frac{Cov(X_{t}, X_{t+h})}{\sqrt{V(X_{t})V(X_{t+h})}} = \frac{\gamma _{x}(h)}{\sqrt{\gamma _{x}(0)\gamma _{x}(0)}} = \frac{\gamma _{x}(h)}{\gamma _{x}(0)} $$
성질을 알아보자.
1) $$ \rho _{x}(0) = \frac{\gamma _{x}(0)}{\gamma _{x}(0)} =1 $$
$$ \because Corr(X_{t}, X_{t})=1 $$
2) $$ \rho _{x}(-h) = \rho _{x}(h) \forall h $$
3) $$ -1 \leq \rho _{x}(h) \leq 1 $$
=> AutoCorrelation 의 범위
3) White Noise
기호: $$ a_{t} $$
성질을 알아보자.
1) $$ E(a_{t}) = 0, \forall t $$
이게 만족이 안되면 이것은 white noise라고 할 수 없다.
2) $$ V(a_{t}) = \sigma _{a}^2, \forall t $$
3) $$ Corr(a_{t}, a_{s}) = 0, t \neq s $$
시점이 다른 확률변수는 서로 독립이다.
4) $$ \gamma _{a}(h)= Cov(a_{t},a_{t+h}) = \sigma _{a}^2 , h=0 $$
$$ = 0 , h\neq 0 $$
3)에서 시점이 다르면 독립임을 보였기 때문이다.
Q: 왜 $$ \gamma _{a}(h) $$ 라고 x-> a 로 바꿔서 사용하는가?
A: 확률변수가 이전까지는 x였는데 그와 구분하려고 $$ a_{t} $$ 를 따로 정의하였기 때문이다.
5) $$ \rho _{a}(h)= 1 , h=0 $$
$$ \rho_{a}(h) = 0 , h\neq 0 $$
이런 5가지 특징을 다 가지고 있어야 white noise (백색 잡음 이나 백색 노이즈) 라고 부른다.
다시, ARIMA 모델을 사용하기 위해서는 Time series 가 Stationary 해야 한다.
만약 Non-stationary 하면 differencing, transformation을 적용해서 Stationary 하게 만들어야 한다.
Q: 이때, stationary 하다는 것의 의미는 무엇일까?
$$ x_{1}, x_{2}, x_{3} ,,, x_{t} $$ 일때,
$$ E(x_{t})=\mu , V(x_{t})=\sigma x^2 , \forall t $$
이때, 기댓값과 분산은 t에 대한 함수가 아니기 때문에 t와는 관련이 없다. 즉, t와 관계없이 일정해야 한다는 말이다.
Constant Probability distribution over time. (시간에 따라 일정한 확률분포)
Stationary time series (Stationary Process)
Stationary 한건 시간이 지남에 따라 약간 노이즈가 있지만 평균과 분산이 일정했던 것을 앞선 강의에서 확인할 수 있다.
예제를 봅시다.
Suppose $$ z_{t}=\beta _{0} + \beta _{1}t + x_{t} $$, where $$ x_{t} $$ is stationary.
1) Show that $$ z_{t} $$ is NOT stationary
왜일까요?
우선, Stationary 정의를 다시 생각해보면 1) t와 관계없이 일정한 평균 $$ E(z_{t}) = E(\beta _{0} + \beta _{1}t + x_{t}) $$
$$ = \beta _{0} + \beta _{1}t + E(x_{t}) $$ X_t 가 stationary 하기 때문에 그것의 평균은 $$ \mu $$
$$ \beta _{0} + \beta _{1}t + \mu $$보면, 평균이 t에 대한 함수임을 볼 수 있다. 따라서, stationary 하지 않음이 증명되었다.
2) Show that $$ \bigtriangledown z_{t} = z_{t}-z_{t-1} $$ is stationary
$$ E(z_{t}-z_{t-1}) = E(\beta _{0} + \beta _{1}t + x_{t}-(\beta _{0} + \beta _{1}(t-1) + x_{t-1})) $$
$$ = E(x_{t}+\beta _{1} - x_{t-1}) = \mu + \beta _{1} - \mu = \beta _{1} $$
Expectation 관점에서는 Stationary 의 조건을 만족했다!
$$ Cov(\bigtriangledown z_{t}, \bigtriangledown z_{t-h}) = Cov(z_{t}-z_{t-1}, z_{t-h}-z_{t-h-1}) $$
$$ = Cov(z_{t},z_{t-h}) - Cov(z_{t},z_{t-h-1}) - Cov(z_{t-1},z_{t-h}) + Cov(z_{t-1},z_{t-h-1}) $$
$$ = \gamma _{z}(h) - \gamma _{z}(h+1) - \gamma _{z}(h-1) + \gamma _{z}(h) $$
$$ = 2\gamma _{z}(h)- \gamma _{z}(h+1) - \gamma _{z}(h-1) $$
t에 대해서 independent 하기 때문에, 마찬가지로 stationary의 조건을 만족하였다.
이번시간까지는 기본적인 개념에 대해 알아보았는데, 특히 stationary에 대한 수리적 정의를 꼭 이해합시다~!
https://colab.research.google.com/drive/1JntsgMotoBaIlXdaWpWWcSoE6qIN9qUc?usp=sharing
아래의 링크를 누르면, passengers data를 활용한 시계열 데이터 분석을 확인하실 수 있습니다.
[시계열 스터디] ARIMA Model part6 (1) | 2022.11.13 |
---|---|
[시계열] ARIMA 모델 - Part 4 (0) | 2022.11.03 |
[시계열 스터디] ARIMA Model part2 (1) | 2022.09.25 |
[시계열 스터디] ARIMA Model Part 1 (1) | 2022.09.25 |
[시계열 스터디] Exponential Smoothing (0) | 2022.09.25 |
댓글 영역