[시계열 스터디] 시계열 데이터의 특성

심화 스터디/시계열

by 죠_ 2022. 9. 13. 11:16

작성자 : 15기 김지호

본 포스팅은 https://www.youtube.com/watch?v=7Do_hixXCpc&t=1517s - Time Series Regression - Part 1 를 참고하여 작성하였습니다.

1. 시계열 데이터?

- 시간의 흐름에 따라 순서대로 수집되어 시간의 영향을 받게 되는 데이터

- 순서가 있고, 연속한 관측치는 서로 연관성을 가짐

ex) 시간에 따른 제품 판매량(Point Of Sales) , 일일 주식 가격, 분기별/연도별 실업자 수, 서울시 오염정도, 특정 제품의 재고량

2. 시계열 데이터 구성요소

불규칙적으로 변동되는 데이터를 분석하려면? 변동 요인을 4가지로 단순화해서 접근
시계열 자료의 특성을 4가지로 가정하면 변동 요인을 파악할 수 있는데, 그 4가지 변동요인은 다음과 같다
- 추세 변동
- 계절 변동
- 순환 변동
- 불규칙 변동

+ Abrupt Change(가파른 변동), Outliers 등등

2.1 추세변동 Trend

장기간에 걸친 지속적인 변화 상태. 경향성
전체적인 추세는 상향, 하향 혹은 안정이어야함

2.2 순환변동 Cycle

경기변동이라고도 부름
1년 이상의 주기로 상승과 하락이 반복적으로 나타남.
기후조건, 사회적 관습 등과 같은 계절변동으로는 설명되지 않는 장기적인 주기변동

2.3 계절변동 Seasonal Variations

1년 미만의 기간을 주기로 반복적인 패턴이 나타남.
자연적 요인, 사회적 관습, 제도 등의 영향을 받아 계절적인 차이를 나타나는 경우가 많음
보통 분기별, 월별 자료에서 나타남

2.4 우연변동 Random fluctuation

사전에 예상할 수 없는 사건에 의해 야기 되는 변동 (지진, 전쟁, 홍수, 파업)
예측할 수 없고, 제어할 수도 없음
일반적으로 white noise라고 부르고, 평균이 0,일정한 분산을 가진 정규분포에서 추출된 임의의 수라고 가정함

3. 시계열 분석의 목적 = 미래 예측!

예측이 이루어지는 과정

4. 예측 평가

다양한 모델, 방법론 중 가장 정확한 예측을 내는 방법을 찾으려면, 비교를 위해서 척도가 필요함
해결하려는 문제에 적절한 평가 지표를 활용해야 함
다양한 평가 지표
1. 평균제곱오차 (Mean squared error: MSE)
2. 평균제곱근오차 (Root mean squared error: RMSE)
3. 평균절대오차 (Mean absolute error: MAE)
4. 평균절대백분비오차(Mean absolute percentage error: MAPE)

1. 평균제곱오차 (Mean squared error: MSE)

outlier에 민감
스케일에 의존적임 (MAE, MSE, RMSE와 동일)
제곱연산 때문에 예측변수랑 단위가 다름
underestimate/ overestimate 알 수 없다 (부호 x)

2. 평균제곱근오차 (Root mean squared error: RMSE)

스케일에 의존적임
예측변수랑 단위가 같음
outlier에 민감

3. 평균절대오차 (Mean absolute error: MAE)

직관적이며 예측변수와 단위가 같다
outlier에 덜 민감하다
잔차에 절댓값을 취하므로 underestimate / overestimate 인지 파악이 어려움
스케일 의존적임

(주식 종목 A의 주가가 100,000이고 B의 가격이 1,000일 때 두 종목의 주가를 예측하는 모델의 MAE가 동일하게 10 이라고 한다면 이들은 분명 동일한 에러율이 아님에도 불구하고 MAE 숫자 자체는 동일하다.)

4. 평균절대백분비오차(Mean absolute percentage error: MAPE)

RSME, MAE는 절대적인 의미의 오차를 나타냄
MAE를 비율로 나타낸 것
비율 변수이기 때문에, 스케일 차이가 나는 모델들을 비교할 때 용이하다.
underestimate / overestimate 파악이 어렵다
비율로 해석했을 때 의미 있는 데이터들만 적용할 수 있다 (기온 같은 경우는 비율변수로 처리하면 의미가 없다)
실제 데이터 중 0 이 있으면 MAPE 계산이 어렵다 (zero-division error)

5. 예측 모델

시계열 데이터의 연속성을 찾아내는 머신러닝 알고리즘과 세부적인 딥러닝 알고리즘은 다양
- LSTM(Long-Term Short Memory)
- MLP(Multi-Layer Perceptron)
- SVR (Support Vector Regression)
- KNN (kernel regression K-Nearest Neighbor regression)
- GRNN(Generalized Regression Neural Networks )
- RBF (Radial Basis Functions)
- CART regression trees
- BNN (Bayesian Neural Network)

'심화 스터디 > 시계열' 카테고리의 다른 글

[시계열 스터디] ARIMA Model part2 (1)	2022.09.25
[시계열 스터디] ARIMA Model Part 1 (1)	2022.09.25
[시계열 스터디] Exponential Smoothing (0)	2022.09.25
[시계열 데이터] Seasonal Variation (0)	2022.09.23
[시계열 스터디] Time Series Regression (0)	2022.09.14

KUBIG 2022-2 활동 블로그

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문