상세 컨텐츠

본문 제목

[시계열 데이터] Seasonal Variation

심화 스터디/시계열

by gyubinc 2022. 9. 23. 23:31

본문

본 포스팅은 김성범 교수님의 강의 https://www.youtube.com/watch?v=5QnR4L3KGz4&list=PLpIPLT0Pf7IqSuMx237SHRdLd5ZA4AQwd&index=8

-Time Series Regression - Part 3 를 참고하여 작성되었습니다.


preview

시계열 데이터란?

  • 시간의 흐름에 따라 순서대로 수집되어 시간의 영향을 받게 되는 데이터 

 

시계열 데이터의 구성요소

  • 추세 변동
  • 계절 변동
  • 순환 변동
  • 불규칙 변동

 

평가 지표

  1. 평균제곱오차 (Mean squared error: MSE) 

  1. 평균제곱근오차 (Root mean squared error: RMSE)

  1. 평균절대오차 (Mean absolute error: MAE)

  1. 평균절대백분비오차(Mean absolute percentage error: MAPE)

시계열 회귀분석

 

  • yt: t시점에서의 값
  • TRt: t시점에서의 트렌드
  • et: t시점에서의 에러

 

Auto Correlation

  • 자기 자신과 한 시점 shift된 자기 자신의 correlation

 

Auto Correlation의 종류

 

  • Positive Autocorrelation
  • Negative Autocorrelation
  • Random Autocorrelation

 

Durbin-Watson Test

 

  • Positive Autocorrelation

  • Negative Autocorrelation

 

Seasonal Variations

  • Constant Seasonal Variation

  • Increasing Seasonal Variation

Data transformation

  • 제곱근 변환 (square root transformation)

  • 로그 변환 (log transformation) : 더 자주 사용

 

 


 

1. Modeling Seasonal Variations

  • 시계열 데이터의 4가지 구성요소 중 Seasonal factor를 고려한 회귀분석

 

 


 

2. Binary Variables Model

  • Seasonal factor를 binary variable을 통해 표현해보자

Q) 여기서 binary variable은 어떤 부분일까요?

 

 

xs1,t = 일반적인 표현 방식

M1 = 특정했을 때의 표현 방식

 

Q) M12는 왜 따로 표현하지 않았을까요?

 

β2 = 12월과 1월 사이의 차이

 

β2>0 = 12월의 투숙객보다 1월의 투숙객의 수가 더 많다.

 

 


 

3 . Trigonometric Model

  • Seasonal factor를 사인과 코사인의 조합으로 표현해보자

 

  • 모델은 linear trend로 가정한다
  • 모델 1 ) regular한 seasonal pattern을 가질 때 사용
  • 모델 2 ) more comlicated한 seasonal pattern을 가질 때 사용

 

 


 

4. Growth Curve Model

  • 모델이 linear하지 않을 때 표현해보자

 

모델이 non-linear 하므로 log변환을 통해 linear한 형태로 변환해주어야 한다.

parameter에 따른 Growth Curve Model의 형태

 


 

5. Time Series Regression with Autocorrelation

  • error 사이에 correlation이 있다고 가정

 

Q) original regression에 있어 error term의 가정은 무엇일까요?

 

 

 

  • at = error term의 error term (평균이 0이고, 분산이 일정, 독립)
  • Φ = correlation coefficient between error terms separated by one time period
  • Φ1 >0 = error term이 positively autocorrelated
  • Φ1 <0 = error term이 negatively autocorrelated

 

※일반적인 형태의 최소제곱법을 통해 회귀분석할 수 없다.

 


 

6. 실습 (with Python)

 

example data

index = [ 'time', 'yt' ]로 구성된 168개의 데이터로 구성된 csv 파일

(강의자료를 토대로 직접 생성)

 

y의 값이 increasing Seasonal Variation을 가지고 있어

lny값으로 transformation 해 주어야 한다.


Using Binary Variables Model

  • binary 변수 생성

  • 변수 형태 확인 후 dataframe 생성

y의 값이 increasing Seasonal Variation을 가지고 있어

lny값으로 transformation 해 주어야 한다.

Regression Model

 

  • 결과값 정리

 

Prediction


Using Trigonametric Model

trigonametric variable 생성

Regression Model

  • 결과값 정리

Prediction

 

관련글 더보기

댓글 영역