Generative AI/Language Model

[NLP] Seq2Seq Model

데이터 세상 2021. 3. 12. 10:44
728x90
반응형

Seq2Seq(Sequence to Sequence)

  • 시퀀스 형태의 입력값을 시퀀스 형태의 출력으로 만들 수 있게 하는 모델
  • 하나의 텍스트 문장이 입력으로 들어오면 하나의 텍스트 문장을 출력하는 구조
  • RNN 모델 ([Machine Learning] RNN(Recurrent Neural Network)) 을 기반으로 Encoder와 Decoder 부분으로 나뉨

 

출처: https://jalammar.github.io//images/seq2seq_5.mp4

 

출처: https://jalammar.github.io//images/seq2seq_6.mp4

 

 

활용 분야

  • 기계 번역(Machine Translation)
  • 텍스트 요약(Text Summarization)
  • 이미지 설명(Image Captioning)
  • 대화 모델(Conversation Model)

 

Data Preprocessing

  1. 단어 단위로 Tokenization
  2. Encoder, Decoder 문장의 최대 길이 찾기
  3. Encoder, Decoder 별로 처리

Encoder

  • 문장의 끝을 EOS 처리
  • 문장의 최대 길이에 맞추어 뒷단을 EOS 처리

Decoder

  • 문장의 시작에 START 추가
  • 문장의 끝을 EOS 처리
  • 문장의 최대 길이에 맞추어 뒷단을 EOS 처리

4. One-Hot Encoding을 통해 문장별 행렬로 변환

 

 

입력 Sequence의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재

-> Attention 방식으로 학습하여 문제 해결


References

728x90
반응형