본문 바로가기

Deep Learning

(6)
Sequence-to-Sequence(Seq2Seq) 이 글은 Joshua Starmer의 Sequence-to-Sequence (seq2seq) Encoder-Decoder Neural Networks, Clearly Explained!!! 를 정리한 것임을 밝힙니다. 자연어 처리(NLP) 분야에서 입력과 출력이 모두 시퀀스(연속된 단어들)인 문제는 매우 흔하다. 대표적인 예로는 다음과 같은 것들이 있다.영어 문장을 한국어로 번역질문에 대한 답변 생성챗봇 응답 생성오디오 신호를 텍스트로 변환 (예: 음성 인식)이러한 문제를 해결하기 위한 대표적인 신경망 구조가 바로 Sequence-to-Sequence (Seq2Seq) 모델이다. ✅ Seq2Seq 모델 이란?Seq2Seq는 이름 그대로 입력 시퀀스를 출력 시퀀스로 변환하는 모델이다. 이 모델은 크게 두 ..
Attention 메커니즘 이 글은 Joshua Starmer의 Attention for Neural Networks, Clearly Explained!!! 를 정리한 것임을 밝힙니다.Encoder-Decoder 모델은 긴 input에 대해 취약하다. → context vector로 압축하는 데에는 한계가 있다.RNN의 Long term 메모리 문제를 LSTM이 해결해준 것 아닌가? 하는 의문이 들 수 있겠지만, 아무리 Long term 을 저장한다고 해도, input이 너무 길어지면 과거의 정보가 잊혀질 수 있다. Attention Attention의 핵심 아이디어는 Encoder에서 Decoder로 새로운 경로들을 추가하는 것이다. 즉, 입력 값마다 하나씩 경로를 만들어서, Decoder의 각 단계가 입력 값을 직접 접근할 ..
Transformer 이 글은 Joshua Starmer의 Transformer Neural Networks, ChatGPT's foundation, Clearly Explained!!를 정리한 것임을 밝힙니다. TransformerSeq2Seq 는 고정된 context vector을 사용하여 Input에 따라 유연하지 못했다. 트랜스포머 모델은 기존 자연어 처리 모델의 여러 한계를 효과적으로 보완한다. 순차적 처리의 한계 극복: 이전의 seq2seq과 같은 순환신경망 모델들은 데이터를 순차적으로 처리하는 구조로 인해 긴 시퀀스에서 효율성이 떨어지고, 장기 의존성을 학습하는 데 한계가 있었다. 트랜스포머는 Self-Attention 메커니즘을 통해 문장의 모든 부분을 동시에 처리하며, 이로 인해 장기 의존성 문제를 효과적으..
[신경망] Neural Network와 Back propagation Neural Network의 배경 Neural Network(NN) 는 기존의 머신러닝 모델 기법에서의 한계를 보완하기 위해 고안되었다. 인간의 뉴런 작동 방식을 차용하여, 머신러닝 기법에 적용한 것이다. NN은 여러 레이어(층)를 쌓고 각 레이어에서 파라미터의 가중치를 학습시키는 방법을 통해 학습 데이터를 설명한다. 이 과정에서 어떤 피처가 중요한 피처인지 학습하는 representative learning 을 하게된다. Neural Network Architecture Input layer에서 피처가 3개, Hidden layer가 1층, Output layer가 1개의 유닛으로 구성된 NN의 아키텍처는 위 그림과 같다. 보시다시피, NN에서 가운데 Hidden layer만 없으면 linear reg..
LSTM 쉽게 이해하기 이 글은 고려대학교 산업경영공학부 김성범 교수님의 유튜브 영상 [핵심 머신러닝] RNN, LSTM, GRU를 정리한 것임을 밝힙니다. RNN 모델은 기울기 소실(Vanishing Gradient) 문제 때문에, 모델이 과거 시점의 정보를 기억하기 어렵다고 했었다.이를 보완한 모델이 바로 LSTM(Long Short-Term Memory)이다. 이 글에서는 LSTM에 대해 알아보도록 하자. LSTM(Long Short-Term Memory)LSTM이 RNN과 다른 점은 크게 두 가지이다. 1. 세 가지 gate: Forget gate(ft), Input gate(it), Output gate(ot)2. Cell state 구조 (ct): 장기적으로 정보를 유지 * gate, state는 vector이며 일..
RNN 쉽게 이해하기 이 글은 고려대학교 산업경영공학부 김성범 교수님의 유튜브 영상 [핵심 머신러닝] RNN, LSTM, GRU를 정리한 것임을 밝힙니다. 어떠한 데이터로 미래의 y값을 예측한다고 했을 때, 이전 시점들의 결과가 추후에 영향을 줄 수 있다. 이를 '시계열 데이터'라고 한다.시계열 데이터에 접근하기 위한 모델은 전통적인 통계 기법부터 딥러닝까지 다양한데, 아래와 같이 정리할 수 있다. - 전통 통계 기반 시계열 데이터 분석 방법론1. 이동평균법 (Moving Average)2. 지수평활법 (Exponential smoothing)3. ARIMA(Auto Regressive Integrated Moving Average)4. SARIMA(Seasonal ARIMA) - ARIMA 모델에 계절성을 추가한 것5. A..