반응형

language model 7

[NLP] Language Model이란

Transfer Learning 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다. 학습 데이터의 수가 적을 때 효과적이며, 전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다. Upstream Task (Self-Supervised Learning) 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치(corpus)의 문맥을 이해하는 과제 Language Model: upstream task를 수행한 모델을 의미한다. Pretrain: upstream task를 학습하는 과정, downstream task를 본격적으로 수행하기에 앞서(pre) 학습(train)한다는 의미한다. Downstream Task 문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리..

[Language Model] GPT

GPT(Generative Pre-trained Transformer) OpenAI에서 Transformer의 Decoder를 활용해 발표한 Pretrained 언어 모델 GPT-1 : 2018년 발표 GPT-2 : 2019년 2월 발표, 제한된 데모버전만 공개 GPT-3 : 2020년 발표, 유료 Pretrained Language Model이란 레이블이 없는 많은 데이터를 비지도 학습 방법으로 학습을 해서 모델이 언어를 이해 할 수 있도록 한 후 특정 Task에 적용해서 좋은 성능을 내는 방법을 의미한다. Unsupervised pre-training 표준 Transformer의 Decoder만 사용하므로 Decoder에서 Encoder의 출력과 Attention을 하는 부분인 Encoder-Deco..

Language Model 종류

고려대학교 온라인 강의 내용을 참고하여 Text 분석과 관련된 언어 모델을 정리하였다. https://youtube.com/playlist?list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm [Korea University] Unstructured Data Analysis (Text Analytics) 고려대학교 산업경영공학부 대학원 일반대학원 비정형데이터분석 (Text Analytics) 담당교수: 강필성 교과목 홈페이지: https://github.com/pilsung-kang/Text-Analytics www.youtube.com Seq2Seq (Sequence to Sequence) Seq2Seq Model 순서 정보를 활용해서 텍스트를 분석하기 위해 사용한 모델 시퀀스 형태의..

[Language Model] ELMo

ELMo (Embeddings from Language Models) 2018년 6월에 “Deep contextualized word representations” 논문을 통해 발표된 임베딩 모델 Pre-trained word representations A key component in many neural language understating models High quality representations should ideally model Complex characteristics of word use how these uses vary across linguistic contexts 좋은 단어 표현의 조건으로 두 가지를 제시 첫 번째는 단어의 구조(Syntax)적 특성과 의미(Semantic)..

[NLP] 통계적 언어 모델(Statistical Language Model, SLM)

Language Model 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측한거나 생성하는 모델 통계적 언어 모델(Statistical Language Model, SLM) 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델 모델의 목표는 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는데 있음 조건부 확률(conditional Probabilities) 언어 모델 조건부 확률을 기준으로 글자나 형태소의 결합 확률을 기반으로 모델링 corpus 내에서 각 단어들의 조합이 나오는 횟수를 카운트한 후 이에 기반하여 확률을 계산 스마트폰의 자동 완성 N-gram 언어 모델 문장 내 단..

[Language Model] T5(Text-to-Text Transfer Transformer)

Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필요 XLNet, RoBERTa, MT-DNN, T5 2. Transformer 구현체를 축소시키면서 성능 손실을 막고 서비스가 가능한 형태로 어떻게 바꿀까? Quantization, Pruning, Knowledge Distillation T5(Text-to-Text Transfer Transformer) Google, 2020, 110억 파라미터 통합 텍스트-텍스트 트랜스포머 전송 학습의 한계 탐구(Exploring the Limits of Transfe..

728x90
반응형