Generative AI/Language Model

[Language Model] Transformer Model

데이터 세상 2022. 5. 4. 12:45
728x90
반응형

Transformer Model

Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017)

  • Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델
  • 병렬화가 가능하고 학습속도가 상당히 빠름

 

출처: https://jalammar.github.io/illustrated-transformer/

 

Self-Attention

Step1: embedding된 각각의 단어들의 3개의 벡터값을 생성한다.

512차원의 단어 벡터들이 각 64차원의 Q, K, V 벡터로 변환된다.

  • Query Vector
  • Key Vector
  • Value Vector

Step2: query vector와 key vector를 내적해서 score 연산

Step3. 4: 8로 나누고, softmax score 연산

Step5: softmax score와 각각의 value vector를 곱함

Step6: weigthed value vector들을 더함

출처: https://jalammar.github.io/illustrated-transformer/

 

문장에서 it 단어를 인코딩할 때 다른 attention header들이 집중하는 것이 무엇인지 보여주는 예시 

출처: https://jalammar.github.io/illustrated-transformer/

 

The Residuals

Residual Connection (잔차연결)

잔차연결은 서브층의 입력과 출력을 더하는 것을 말한다.

서브층에서 학습된 정보가 데이터 처리 과정에서 손실되는 것을 방지하는 방법이다.

출처: https://jalammar.github.io/illustrated-transformer/

 

출처: https://jalammar.github.io/illustrated-transformer/

 

출처: https://jalammar.github.io/images/t/transformer_decoding_2.gif

 


References

728x90
반응형

'Generative AI > Language Model' 카테고리의 다른 글

Language Model 종류  (0) 2022.05.09
[Language Model] ELMo  (0) 2022.05.09
[Language Model] Attention Model  (0) 2022.05.04
[Language Model] BERTopic  (0) 2021.06.14
[Language Model] KR-BERT  (0) 2021.04.13