Generative AI/Language Model

[Language Model] Attention Model

데이터 세상 2022. 5. 4. 12:11
728x90
반응형

Attention Model

Seq2Seq 모델에서 시퀀스의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재

Seq2Seq의 단점을 보완하기 위해 Attention 개념을 도입

Attention은 Seq2Seq 모델이 각각 입력 시퀀스 중에서 현재 output 아이템이 중복해야 하는 파트들을 직접 연결, 가중치 등을 주어 해당하는 파트들의 정보를 더 잘 활용하도록 하는 개념

 

 

가장 마지막의 hidden state만 디코더에 전달하는 것이 아니라 모든 hidden state의 정보를 decoder에 전달한다.

각각의 hidden state에 가중치 정보를 고려하여 가장 영향이 큰 hidden state 정보를 기준으로 output을 판단한다.

 

출처: https://jalammar.github.io/images/seq2seq_7.mp4

 

출처: https://jalammar.github.io/images/attention_process.mp4

 

출처: https://jalammar.github.io/images/attention_tensor_dance.mp4

 


Refere​nces

 

728x90
반응형

'Generative AI > Language Model' 카테고리의 다른 글

[Language Model] ELMo  (0) 2022.05.09
[Language Model] Transformer Model  (0) 2022.05.04
[Language Model] BERTopic  (0) 2021.06.14
[Language Model] KR-BERT  (0) 2021.04.13
[NLP] 통계적 언어 모델(Statistical Language Model, SLM)  (0) 2021.04.12