728x90
반응형
Transformer Model
Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017)
- Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델
- 병렬화가 가능하고 학습속도가 상당히 빠름
Self-Attention
Step1: embedding된 각각의 단어들의 3개의 벡터값을 생성한다.
512차원의 단어 벡터들이 각 64차원의 Q, K, V 벡터로 변환된다.
- Query Vector
- Key Vector
- Value Vector
Step2: query vector와 key vector를 내적해서 score 연산
Step3. 4: 8로 나누고, softmax score 연산
Step5: softmax score와 각각의 value vector를 곱함
Step6: weigthed value vector들을 더함
문장에서 it 단어를 인코딩할 때 다른 attention header들이 집중하는 것이 무엇인지 보여주는 예시
The Residuals
Residual Connection (잔차연결)
잔차연결은 서브층의 입력과 출력을 더하는 것을 말한다.
서브층에서 학습된 정보가 데이터 처리 과정에서 손실되는 것을 방지하는 방법이다.
출처: https://jalammar.github.io/images/t/transformer_decoding_2.gif
References
728x90
반응형
'Generative AI > Language Model' 카테고리의 다른 글
Language Model 종류 (0) | 2022.05.09 |
---|---|
[Language Model] ELMo (0) | 2022.05.09 |
[Language Model] Attention Model (0) | 2022.05.04 |
[Language Model] BERTopic (0) | 2021.06.14 |
[Language Model] KR-BERT (0) | 2021.04.13 |