[NLP] Seq2Seq Model

Generative AI/Language Model

[NLP] Seq2Seq Model

데이터 세상 2021. 3. 12. 10:44

728x90

Seq2Seq(Sequence to Sequence)

시퀀스 형태의 입력값을 시퀀스 형태의 출력으로 만들 수 있게 하는 모델
하나의 텍스트 문장이 입력으로 들어오면 하나의 텍스트 문장을 출력하는 구조
RNN 모델 ([Machine Learning] RNN(Recurrent Neural Network)) 을 기반으로 Encoder와 Decoder 부분으로 나뉨

출처: https://jalammar.github.io//images/seq2seq_5.mp4

출처: https://jalammar.github.io//images/seq2seq_6.mp4

활용 분야

기계 번역(Machine Translation)
텍스트 요약(Text Summarization)
이미지 설명(Image Captioning)
대화 모델(Conversation Model)

Data Preprocessing

단어 단위로 Tokenization
Encoder, Decoder 문장의 최대 길이 찾기
Encoder, Decoder 별로 처리

Encoder

문장의 끝을 EOS 처리
문장의 최대 길이에 맞추어 뒷단을 EOS 처리

Decoder

문장의 시작에 START 추가
문장의 끝을 EOS 처리
문장의 최대 길이에 맞추어 뒷단을 EOS 처리

4. One-Hot Encoding을 통해 문장별 행렬로 변환

입력 Sequence의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재

-> Attention 방식으로 학습하여 문제 해결

References

728x90

저작자표시 비영리 변경금지 (새창열림)