반응형

Generative AI/Language Model 38

[Large Language Model] BLOOM

BLOOM (2022.11) https://bigscience.huggingface.co/blog/bloom BLOOM Our 176B parameter language model is here. bigscience.huggingface.co 논문: https://arxiv.org/abs/2211.05100 BigScience Large Open-science Open-access Multilingual Language Model 176 billion parameters, Downloadable Model, Hosted API Available BLOOM은 산업 규모의 컴퓨팅 리소스를 사용하여 방대한 양의 텍스트 데이터에 대한 프롬프트에서 텍스트를 계속하도록 훈련된 자동 회귀 대형 언어 모델(autore..

[Large Language Model] FLAN-T5

FLAN-T5 https://huggingface.co/docs/transformers/model_doc/flan-t5 FLAN-T5 Reinforcement learning models huggingface.co 논문: https://arxiv.org/pdf/2210.11416.pdf An encoder-decoder model based on the T5 Scaling Instruction – Fine-tuned Language Models 여러 타스크를 통해 fine-tuned된 T5의 향상된 버전 Flan 프롬프팅을 기반으로 하는 사전 교육 방법 FLAN-T5-XL https://huggingface.co/google/flan-t5-x google/flan-t5-xl · Hugging Face I..

[Suvey Paper] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ChatGPT 및 그 이상에 대한 설문조사에 관한 내용을 정리하였습니다. https://arxiv.org/abs/2304.13712 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing ..

[Foundation Model] GPT-4 / GPT-3

GPT-4 (2023.03.14) OpenAI, Unknown Size, Not Open Source, API Access Only [NLP] GPT : Generative Pre-trained Transformer, OpenAI가 개발한 인공지능 모델 GPT는 자연어 처리를 위한 인공지능 모델로, 방대한 데이터를 머신러닝으로 미리학습(Pre-trained)해 이를 문장으로 생성(Generative) GPT-4는 ChatGPT 유료 상품인 'ChatGPT 플러스'를 통해 사용 가능합니다. 또는 "Bing Chat"을 이용해서도 사용 가능합니다. 텍스트뿐 아니라 이미지도 입력할 수 있으므로 엄격하게 언어 전용 모델은 아니지만 여러 전문 의료 및 법률 시험을 포함한 다양한 작업에서 인상적인 성능을 보여줍니다..

[NLP] Language Model이란

Transfer Learning 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다. 학습 데이터의 수가 적을 때 효과적이며, 전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다. Upstream Task (Self-Supervised Learning) 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치(corpus)의 문맥을 이해하는 과제 Language Model: upstream task를 수행한 모델을 의미한다. Pretrain: upstream task를 학습하는 과정, downstream task를 본격적으로 수행하기에 앞서(pre) 학습(train)한다는 의미한다. Downstream Task 문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리..

[Language Model] BERT

BERT(Bidirectional Encoder Representations for Transformers) Pre-training of Deep Bidirectional Transformers for Language Understanding 2018년 10월 논문이 공개된 구글의 새로운 Language Representation Model 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 Language Model 방대한 양의 Corpus(위키피디아, 웹문서, 책정보 등)를 이미 트레이닝시킨 언어 처리 모델 arxiv.org/abs/1810.04805 github.com/google-research/bert GitHub - google-research/bert: TensorFlow code and pr..

[Language Model] GPT

GPT(Generative Pre-trained Transformer) OpenAI에서 Transformer의 Decoder를 활용해 발표한 Pretrained 언어 모델 GPT-1 : 2018년 발표 GPT-2 : 2019년 2월 발표, 제한된 데모버전만 공개 GPT-3 : 2020년 발표, 유료 Pretrained Language Model이란 레이블이 없는 많은 데이터를 비지도 학습 방법으로 학습을 해서 모델이 언어를 이해 할 수 있도록 한 후 특정 Task에 적용해서 좋은 성능을 내는 방법을 의미한다. Unsupervised pre-training 표준 Transformer의 Decoder만 사용하므로 Decoder에서 Encoder의 출력과 Attention을 하는 부분인 Encoder-Deco..

Language Model 종류

고려대학교 온라인 강의 내용을 참고하여 Text 분석과 관련된 언어 모델을 정리하였다. https://youtube.com/playlist?list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm [Korea University] Unstructured Data Analysis (Text Analytics) 고려대학교 산업경영공학부 대학원 일반대학원 비정형데이터분석 (Text Analytics) 담당교수: 강필성 교과목 홈페이지: https://github.com/pilsung-kang/Text-Analytics www.youtube.com Seq2Seq (Sequence to Sequence) Seq2Seq Model 순서 정보를 활용해서 텍스트를 분석하기 위해 사용한 모델 시퀀스 형태의..

[Language Model] ELMo

ELMo (Embeddings from Language Models) 2018년 6월에 “Deep contextualized word representations” 논문을 통해 발표된 임베딩 모델 Pre-trained word representations A key component in many neural language understating models High quality representations should ideally model Complex characteristics of word use how these uses vary across linguistic contexts 좋은 단어 표현의 조건으로 두 가지를 제시 첫 번째는 단어의 구조(Syntax)적 특성과 의미(Semantic)..

[Language Model] Transformer Model

Transformer Model Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017) Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델 병렬화가 가능하고 학습속도가 상당히 빠름 Self-Attention Step1: embedding된 각각의 단어들의 3개의 벡터값을 생성한다. 512차원의 단어 벡터들이 각 64차원의 Q, K, V 벡터로 변환된다. Query Vector Key Vector Value Vector Step2: query vector와 key vector를 내적해서 score 연산 Step3. 4: 8로 나누고, softmax score 연산 Step5: softmax s..

728x90
반응형