A Time Series is Worth 64 Words:
Long-term Forecasting with Transformers 논문 리뷰
이 논문은 다변량 시계열 예측과 self-supervised representation learning 을 위한 효율적인 Transformer 기반 모델인 PatchTST를 제안한다.
PatchTST의 핵심 요소
- 시계열을 하위 시리즈 패치로 분할하여 Transformer에 입력 토큰으로 제공하는 것
- 각 채널이 단일 변량 시계열을 포함하고, 모든 시리즈에서 동일한 임베딩과 Transformer 가중치를 공유하는 채널 독립성 (여기서 채널이란 하나의 변수 단위를 의미)
Patch?
Patch는 시계열 데이터를 일정한 길이의 하위 시퀀스로 분할한 것을 말한다. 이는 이미지 처리 분야에서 영감을 얻은 개념으로, 이미지를 작은 패치로 자르는 것과 비슷하다. Patch로 시계열을 자르면 다음과 같은 이점이 있다.
- 로컬 의미 정보가 임베딩에 유지
- Attention 메커니즘 계산량과 메모리 사용량이 감소
- 모델이 더 긴 히스토리를 처리
제안된 PatchTST 모델은 SOTA Transformer 기반 모델에 비해 장기 예측 정확도를 크게 향상시켰다. 또한 self-supervised pre-train learning 에도 적용되어 지도학습보다 우수한 미세조정 성능을 달성했다. 한 데이터셋에서 사전 학습된 표현을 다른 데이터셋으로 전이하는 것도 SOTA 예측 정확도를 만들어냈다.
특히 Weather, Traffic, Electricity 등 대규모 데이터셋에서 PatchTST가 다른 Transformer 기반 모델보다 뛰어난 성능을 보였다. 또한 채널 독립성이 PatchTST뿐 아니라 Informer, Autoformer, FEDformer 등 다른 모델에도 적용될 수 있는 일반적인 모델임을 시사한다.
PatchTST는 기존의 Transformer 기반 시계열 예측 모델의 한계를 극복하고, 효율적이고 강력한 성능을 보여준 혁신적인 모델이라 할 수 있다. 패치 설계와 채널 독립성이라는 핵심 아이디어를 통해 시계열 데이터의 국소적 특성과 변수 간 상관관계를 효과적으로 학습한다.
PatchTST FrameWork

- 입력 데이터 분할(Input Univariate Series)
- 다변량 시계열 데이터를 개별 채널(변수)로 분할
- 각 채널은 하나의 단변량 시계열을 나타낸다.
- 패치 생성 (Instance Norm + Patching)
- 각 채널의 시계열을 일정한 길이의 *패치로 분할
- (* 패치: 인접한 시점들을 포함하는 하위 시계열 segment)
- 패치는 overlapping 또는 non-overlapping 할 수 있다. (Stride에 따라 조정이 가능!)
- 임베딩 (Projection + Position Embedding)
- 각 패치는 임베딩 계층을 통해 고차원 벡터로 변환 (word embedding과 유사한 개념)
- 이 때, 패치의 시간적 순서를 반영하기 위해 Position Embedding이 더해진다.
- Transformer 인코더 (Transformer Encoder)
- 임베딩된 패치들은 Transformer 인코더의 입력이 됨.
- 인코더는 여러 개의 Self-Attention 층과 Feed Forward 층으로 구성
- Self-Attention을 통해 패치 간의 상호작용을 모델링
- Feed Forward 층을 통해 패치의 비선형 변환을 수행
- 예측 헤드 (Flatten + Linear Head)
- Transformer 인코더의 출력은 Flatten 되어 1차원 벡터로 변환
- 이 벡터는 최종 예측을 위한 Linear Head의 입력으로 사용
- Linear Head는 미래 시점의 값을 예측하는 역할을 함
- 출력 및 학습
- 모델의 예측 값과 실제 값 사이의 차이(loss)를 계산
- Loss를 최소화하는 방향으로 모델의 파라미터를 업데이트
- 이 과정을 반복하여 모델을 학습
PatchTST의 장점?
- Transformer의 입력으로 개별 시점이 아닌 '패치'를 사용함으로써, 로컬 패턴을 포착하고 계산 효율성을 높임.
- 채널 독립성을 통해 각 변수의 고유한 동적 특성을 모델링하며, 간접적으로 변수 간 상관관계를 학습.
- Self-supervised learning을 통해 레이블이 없는 데이터로부터 Pre-Train 가능