[Language Model] Transformer Model

Generative AI/Language Model

데이터 세상 2022. 5. 4. 12:45

Transformer Model

Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017)

Self-Attention

Step1: embedding된 각각의 단어들의 3개의 벡터값을 생성한다.

512차원의 단어 벡터들이 각 64차원의 Q, K, V 벡터로 변환된다.

Step2: query vector와 key vector를 내적해서 score 연산

Step3. 4: 8로 나누고, softmax score 연산

Step5: softmax score와 각각의 value vector를 곱함

Step6: weigthed value vector들을 더함

문장에서 it 단어를 인코딩할 때 다른 attention header들이 집중하는 것이 무엇인지 보여주는 예시

Residual Connection (잔차연결)

잔차연결은 서브층의 입력과 출력을 더하는 것을 말한다.

서브층에서 학습된 정보가 데이터 처리 과정에서 손실되는 것을 방지하는 방법이다.

728x90

Language Model 종류 (0)	2022.05.09
[Language Model] ELMo (0)	2022.05.09
[Language Model] Attention Model (0)	2022.05.04
[Language Model] BERTopic (0)	2021.06.14
[Language Model] KR-BERT (0)	2021.04.13