Generative AI/Language Model
[NLP] Seq2Seq Model
데이터 세상
2021. 3. 12. 10:44
728x90
반응형
Seq2Seq(Sequence to Sequence)
![]() |
![]() |
- 시퀀스 형태의 입력값을 시퀀스 형태의 출력으로 만들 수 있게 하는 모델
- 하나의 텍스트 문장이 입력으로 들어오면 하나의 텍스트 문장을 출력하는 구조
- RNN 모델 ([Machine Learning] RNN(Recurrent Neural Network)) 을 기반으로 Encoder와 Decoder 부분으로 나뉨
출처: https://jalammar.github.io//images/seq2seq_5.mp4
출처: https://jalammar.github.io//images/seq2seq_6.mp4
활용 분야
- 기계 번역(Machine Translation)
- 텍스트 요약(Text Summarization)
- 이미지 설명(Image Captioning)
- 대화 모델(Conversation Model)
Data Preprocessing
- 단어 단위로 Tokenization
- Encoder, Decoder 문장의 최대 길이 찾기
- Encoder, Decoder 별로 처리
Encoder
- 문장의 끝을 EOS 처리
- 문장의 최대 길이에 맞추어 뒷단을 EOS 처리
Decoder
- 문장의 시작에 START 추가
- 문장의 끝을 EOS 처리
- 문장의 최대 길이에 맞추어 뒷단을 EOS 처리
4. One-Hot Encoding을 통해 문장별 행렬로 변환
입력 Sequence의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재
-> Attention 방식으로 학습하여 문제 해결
References
728x90
반응형