작성자 : 15기 김지호
본 포스팅은 https://www.youtube.com/watch?v=7Do_hixXCpc&t=1517s - Time Series Regression - Part 1 를 참고하여 작성하였습니다.
1. 시계열 데이터?
- 시간의 흐름에 따라 순서대로 수집되어 시간의 영향을 받게 되는 데이터
- 순서가 있고, 연속한 관측치는 서로 연관성을 가짐
ex) 시간에 따른 제품 판매량(Point Of Sales) , 일일 주식 가격, 분기별/연도별 실업자 수, 서울시 오염정도, 특정 제품의 재고량
2. 시계열 데이터 구성요소
- 불규칙적으로 변동되는 데이터를 분석하려면? 변동 요인을 4가지로 단순화해서 접근
- 시계열 자료의 특성을 4가지로 가정하면 변동 요인을 파악할 수 있는데, 그 4가지 변동요인은 다음과 같다
+ Abrupt Change(가파른 변동), Outliers 등등
2.1 추세변동 Trend
- 장기간에 걸친 지속적인 변화 상태. 경향성
- 전체적인 추세는 상향, 하향 혹은 안정이어야함
2.2 순환변동 Cycle
- 경기변동이라고도 부름
- 1년 이상의 주기로 상승과 하락이 반복적으로 나타남.
- 기후조건, 사회적 관습 등과 같은 계절변동으로는 설명되지 않는 장기적인 주기변동
2.3 계절변동 Seasonal Variations
- 1년 미만의 기간을 주기로 반복적인 패턴이 나타남.
- 자연적 요인, 사회적 관습, 제도 등의 영향을 받아 계절적인 차이를 나타나는 경우가 많음
- 보통 분기별, 월별 자료에서 나타남
2.4 우연변동 Random fluctuation
- 사전에 예상할 수 없는 사건에 의해 야기 되는 변동 (지진, 전쟁, 홍수, 파업)
- 예측할 수 없고, 제어할 수도 없음
- 일반적으로 white noise라고 부르고, 평균이 0,일정한 분산을 가진 정규분포에서 추출된 임의의 수라고 가정함
3. 시계열 분석의 목적 = 미래 예측!
4. 예측 평가
- 다양한 모델, 방법론 중 가장 정확한 예측을 내는 방법을 찾으려면, 비교를 위해서 척도가 필요함
- 해결하려는 문제에 적절한 평가 지표를 활용해야 함
- 다양한 평가 지표
- 평균제곱오차 (Mean squared error: MSE)
- 평균제곱근오차 (Root mean squared error: RMSE)
- 평균절대오차 (Mean absolute error: MAE)
- 평균절대백분비오차(Mean absolute percentage error: MAPE)
1. 평균제곱오차 (Mean squared error: MSE)
- outlier에 민감
- 스케일에 의존적임 (MAE, MSE, RMSE와 동일)
- 제곱연산 때문에 예측변수랑 단위가 다름
- underestimate/ overestimate 알 수 없다 (부호 x)
2. 평균제곱근오차 (Root mean squared error: RMSE)
- 스케일에 의존적임
- 예측변수랑 단위가 같음
- outlier에 민감
3. 평균절대오차 (Mean absolute error: MAE)
- 직관적이며 예측변수와 단위가 같다
- outlier에 덜 민감하다
- 잔차에 절댓값을 취하므로 underestimate / overestimate 인지 파악이 어려움
- 스케일 의존적임
(주식 종목 A의 주가가 100,000이고 B의 가격이 1,000일 때 두 종목의 주가를 예측하는 모델의 MAE가 동일하게 10 이라고 한다면 이들은 분명 동일한 에러율이 아님에도 불구하고 MAE 숫자 자체는 동일하다.)
4. 평균절대백분비오차(Mean absolute percentage error: MAPE)
- RSME, MAE는 절대적인 의미의 오차를 나타냄
- MAE를 비율로 나타낸 것
- 비율 변수이기 때문에, 스케일 차이가 나는 모델들을 비교할 때 용이하다.
- underestimate / overestimate 파악이 어렵다
- 비율로 해석했을 때 의미 있는 데이터들만 적용할 수 있다 (기온 같은 경우는 비율변수로 처리하면 의미가 없다)
- 실제 데이터 중 0 이 있으면 MAPE 계산이 어렵다 (zero-division error)
5. 예측 모델
- 시계열 데이터의 연속성을 찾아내는 머신러닝 알고리즘과 세부적인 딥러닝 알고리즘은 다양
- LSTM(Long-Term Short Memory)
- MLP(Multi-Layer Perceptron)
- SVR (Support Vector Regression)
- KNN (kernel regression K-Nearest Neighbor regression)
- GRNN(Generalized Regression Neural Networks )
- RBF (Radial Basis Functions)
- CART regression trees
- BNN (Bayesian Neural Network)
댓글 영역