728x90
반응형
Seq2Seq(Sequence to Sequence)
- 시퀀스 형태의 입력값을 시퀀스 형태의 출력으로 만들 수 있게 하는 모델
- 하나의 텍스트 문장이 입력으로 들어오면 하나의 텍스트 문장을 출력하는 구조
- RNN 모델 ([Machine Learning] RNN(Recurrent Neural Network)) 을 기반으로 Encoder와 Decoder 부분으로 나뉨
출처: https://jalammar.github.io//images/seq2seq_5.mp4
출처: https://jalammar.github.io//images/seq2seq_6.mp4
활용 분야
- 기계 번역(Machine Translation)
- 텍스트 요약(Text Summarization)
- 이미지 설명(Image Captioning)
- 대화 모델(Conversation Model)
Data Preprocessing
- 단어 단위로 Tokenization
- Encoder, Decoder 문장의 최대 길이 찾기
- Encoder, Decoder 별로 처리
Encoder
- 문장의 끝을 EOS 처리
- 문장의 최대 길이에 맞추어 뒷단을 EOS 처리
Decoder
- 문장의 시작에 START 추가
- 문장의 끝을 EOS 처리
- 문장의 최대 길이에 맞추어 뒷단을 EOS 처리
4. One-Hot Encoding을 통해 문장별 행렬로 변환
입력 Sequence의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재
-> Attention 방식으로 학습하여 문제 해결
References
728x90
반응형
'Generative AI > Language Model' 카테고리의 다른 글
[Language Model] KR-BERT (0) | 2021.04.13 |
---|---|
[NLP] 통계적 언어 모델(Statistical Language Model, SLM) (0) | 2021.04.12 |
[Language Model] T5(Text-to-Text Transfer Transformer) (0) | 2021.04.08 |
[Language Model] Multilingual BERT (0) | 2021.04.08 |
[NLP] LDA(Latent Dirichlet Allocation) (0) | 2021.03.12 |