상세 컨텐츠

본문 제목

[시계열 스터디] 시계열 데이터의 특성

심화 스터디/시계열

by 죠_ 2022. 9. 13. 11:16

본문

작성자 : 15기 김지호

본 포스팅은 https://www.youtube.com/watch?v=7Do_hixXCpc&t=1517s  - Time Series Regression - Part 1 를 참고하여 작성하였습니다.


1. 시계열 데이터?

- 시간의 흐름에 따라 순서대로 수집되어 시간의 영향을 받게 되는 데이터 

- 순서가 있고, 연속한 관측치는 서로 연관성을 가짐

 

ex)  시간에 따른 제품 판매량(Point Of Sales) , 일일 주식 가격, 분기별/연도별 실업자 수, 서울시 오염정도, 특정 제품의 재고량 


2. 시계열 데이터 구성요소

  • 불규칙적으로 변동되는 데이터를 분석하려면? 변동 요인을 4가지로 단순화해서 접근
  • 시계열 자료의 특성을 4가지로 가정하면 변동 요인을 파악할 수 있는데, 그 4가지 변동요인은 다음과 같다
    • 추세 변동
    • 계절 변동
    • 순환 변동
    • 불규칙 변동

+ Abrupt Change(가파른 변동), Outliers 등등

 

2.1 추세변동 Trend

  • 장기간에 걸친 지속적인 변화 상태. 경향성
  • 전체적인 추세는 상향, 하향 혹은 안정이어야함

2.2 순환변동 Cycle

  • 경기변동이라고도 부름
  • 1년 이상의 주기로 상승과 하락이 반복적으로 나타남.
  • 기후조건, 사회적 관습 등과 같은 계절변동으로는 설명되지 않는 장기적인 주기변동

 

2.3 계절변동 Seasonal Variations

  • 1년 미만의 기간을 주기로 반복적인 패턴이 나타남.
  • 자연적 요인, 사회적 관습,  제도 등의 영향을 받아 계절적인 차이를 나타나는 경우가 많음
  • 보통 분기별, 월별 자료에서 나타남

2.4 우연변동 Random fluctuation

  • 사전에 예상할 수 없는 사건에 의해 야기 되는 변동 (지진, 전쟁, 홍수, 파업)
  • 예측할 수 없고, 제어할 수도 없음
  • 일반적으로 white noise라고 부르고,  평균이 0,일정한 분산을 가진 정규분포에서 추출된 임의의 수라고 가정함


3. 시계열 분석의 목적 = 미래 예측!

  • 예측이 이루어지는 과정

 


4. 예측 평가 

  • 다양한 모델, 방법론 중 가장 정확한 예측을 내는 방법을 찾으려면, 비교를 위해서 척도가 필요함
  • 해결하려는 문제에 적절한 평가 지표를 활용해야 함
  • 다양한 평가 지표
    1. 평균제곱오차 (Mean squared error: MSE) 
    2. 평균제곱근오차 (Root mean squared error: RMSE)
    3. 평균절대오차 (Mean absolute error: MAE)
    4. 평균절대백분비오차(Mean absolute percentage error: MAPE)

 

1. 평균제곱오차 (Mean squared error: MSE) 

  • outlier에 민감
  • 스케일에 의존적임 (MAE, MSE, RMSE와 동일)
  • 제곱연산 때문에 예측변수랑 단위가 다름 
  • underestimate/ overestimate 알 수 없다 (부호 x)

 

2. 평균제곱근오차 (Root mean squared error: RMSE)

  • 스케일에 의존적임 
  • 예측변수랑 단위가 같음
  • outlier에 민감

 

3. 평균절대오차 (Mean absolute error: MAE)

  • 직관적이며 예측변수와 단위가 같다
  • outlier에 덜 민감하다 
  • 잔차에 절댓값을 취하므로 underestimate / overestimate 인지 파악이 어려움
  • 스케일 의존적임

(주식 종목 A의 주가가 100,000이고 B의 가격이 1,000일 때 두 종목의 주가를 예측하는 모델의 MAE가 동일하게 10 이라고 한다면 이들은 분명 동일한 에러율이 아님에도 불구하고 MAE 숫자 자체는 동일하다.)

 

 

4. 평균절대백분비오차(Mean absolute percentage error: MAPE)

  • RSME, MAE는 절대적인 의미의 오차를 나타냄 
  • MAE를 비율로 나타낸 것
  • 비율 변수이기 때문에, 스케일 차이가 나는 모델들을 비교할 때 용이하다.
  • underestimate / overestimate 파악이 어렵다
  • 비율로 해석했을 때 의미 있는 데이터들만 적용할 수 있다 (기온 같은 경우는 비율변수로 처리하면 의미가 없다)
  • 실제 데이터 중 0 이 있으면 MAPE 계산이 어렵다 (zero-division error)

 

 

 

5. 예측 모델

  • 시계열 데이터의 연속성을 찾아내는 머신러닝 알고리즘과 세부적인 딥러닝 알고리즘은 다양
    • LSTM(Long-Term Short Memory)
    • MLP(Multi-Layer Perceptron)
    • SVR (Support Vector Regression)
    • KNN (kernel regression K-Nearest Neighbor regression)
    • GRNN(Generalized Regression Neural Networks )
    • RBF (Radial Basis Functions)
    • CART regression trees
    • BNN (Bayesian Neural Network)

관련글 더보기

댓글 영역