반응형

Generative AI 48

[Generative AI] Generative AI(생성형 AI)

Generative AI(생성형 AI) Generative AI를 위한 핵심 기술 - Foundation Model: Foundation Model 이란 - Prompt engineering: Prompt Engineering (프롬프트 엔지니어링) Generative AI의 핵심은 "충분히 있을 법한" 무언가를 생성하는 것입니다. Generative AI는 기본 기능이 콘텐츠 생성인 모든 AI 시스템에 사용할 수 있는 광범위한 용어입니다. 이는 데이터 분류(예: 이미지에 레이블 지정), 데이터 그룹화(예: 유사한 구매 행동을 가진 고객 세그먼트 식별) 또는 작업 선택(예: 자율 차량 조종)과 같은 다른 기능을 수행하는 AI 시스템과 대조됩니다. Generative AI란 사람이 AI에게 특정 입력(프롬..

[Suvey Paper] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ChatGPT 및 그 이상에 대한 설문조사에 관한 내용을 정리하였습니다. https://arxiv.org/abs/2304.13712 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing ..

[Foundation Model] GPT-4 / GPT-3

GPT-4 (2023.03.14) OpenAI, Unknown Size, Not Open Source, API Access Only [NLP] GPT : Generative Pre-trained Transformer, OpenAI가 개발한 인공지능 모델 GPT는 자연어 처리를 위한 인공지능 모델로, 방대한 데이터를 머신러닝으로 미리학습(Pre-trained)해 이를 문장으로 생성(Generative) GPT-4는 ChatGPT 유료 상품인 'ChatGPT 플러스'를 통해 사용 가능합니다. 또는 "Bing Chat"을 이용해서도 사용 가능합니다. 텍스트뿐 아니라 이미지도 입력할 수 있으므로 엄격하게 언어 전용 모델은 아니지만 여러 전문 의료 및 법률 시험을 포함한 다양한 작업에서 인상적인 성능을 보여줍니다..

[NLP] Language Model이란

Transfer Learning 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다. 학습 데이터의 수가 적을 때 효과적이며, 전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다. Upstream Task (Self-Supervised Learning) 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치(corpus)의 문맥을 이해하는 과제 Language Model: upstream task를 수행한 모델을 의미한다. Pretrain: upstream task를 학습하는 과정, downstream task를 본격적으로 수행하기에 앞서(pre) 학습(train)한다는 의미한다. Downstream Task 문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리..

[Language Model] BERT

BERT(Bidirectional Encoder Representations for Transformers) Pre-training of Deep Bidirectional Transformers for Language Understanding 2018년 10월 논문이 공개된 구글의 새로운 Language Representation Model 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 Language Model 방대한 양의 Corpus(위키피디아, 웹문서, 책정보 등)를 이미 트레이닝시킨 언어 처리 모델 arxiv.org/abs/1810.04805 github.com/google-research/bert GitHub - google-research/bert: TensorFlow code and pr..

[Language Model] GPT

GPT(Generative Pre-trained Transformer) OpenAI에서 Transformer의 Decoder를 활용해 발표한 Pretrained 언어 모델 GPT-1 : 2018년 발표 GPT-2 : 2019년 2월 발표, 제한된 데모버전만 공개 GPT-3 : 2020년 발표, 유료 Pretrained Language Model이란 레이블이 없는 많은 데이터를 비지도 학습 방법으로 학습을 해서 모델이 언어를 이해 할 수 있도록 한 후 특정 Task에 적용해서 좋은 성능을 내는 방법을 의미한다. Unsupervised pre-training 표준 Transformer의 Decoder만 사용하므로 Decoder에서 Encoder의 출력과 Attention을 하는 부분인 Encoder-Deco..

Language Model 종류

고려대학교 온라인 강의 내용을 참고하여 Text 분석과 관련된 언어 모델을 정리하였다. https://youtube.com/playlist?list=PLetSlH8YjIfVzHuSXtG4jAC2zbEAErXWm [Korea University] Unstructured Data Analysis (Text Analytics) 고려대학교 산업경영공학부 대학원 일반대학원 비정형데이터분석 (Text Analytics) 담당교수: 강필성 교과목 홈페이지: https://github.com/pilsung-kang/Text-Analytics www.youtube.com Seq2Seq (Sequence to Sequence) Seq2Seq Model 순서 정보를 활용해서 텍스트를 분석하기 위해 사용한 모델 시퀀스 형태의..

[Language Model] ELMo

ELMo (Embeddings from Language Models) 2018년 6월에 “Deep contextualized word representations” 논문을 통해 발표된 임베딩 모델 Pre-trained word representations A key component in many neural language understating models High quality representations should ideally model Complex characteristics of word use how these uses vary across linguistic contexts 좋은 단어 표현의 조건으로 두 가지를 제시 첫 번째는 단어의 구조(Syntax)적 특성과 의미(Semantic)..

[Language Model] Transformer Model

Transformer Model Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017) Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델 병렬화가 가능하고 학습속도가 상당히 빠름 Self-Attention Step1: embedding된 각각의 단어들의 3개의 벡터값을 생성한다. 512차원의 단어 벡터들이 각 64차원의 Q, K, V 벡터로 변환된다. Query Vector Key Vector Value Vector Step2: query vector와 key vector를 내적해서 score 연산 Step3. 4: 8로 나누고, softmax score 연산 Step5: softmax s..

[Language Model] Attention Model

Attention Model Seq2Seq 모델에서 시퀀스의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재 Seq2Seq의 단점을 보완하기 위해 Attention 개념을 도입 Attention은 Seq2Seq 모델이 각각 입력 시퀀스 중에서 현재 output 아이템이 중복해야 하는 파트들을 직접 연결, 가중치 등을 주어 해당하는 파트들의 정보를 더 잘 활용하도록 하는 개념 가장 마지막의 hidden state만 디코더에 전달하는 것이 아니라 모든 hidden state의 정보를 decoder에 전달한다. 각각의 hidden state에 가중치 정보를 고려하여 가장 영향이 큰 hidden state 정보를 기준으로 output을 판단한다. 출처: https://jalam..

[Language Model] BERTopic

BERTopic BERT 임베딩 및 클래스 기반 TF-IDF를 활용하여 조밀한 클러스터를 생성하여 주제 설명에 중요한 단어를 유지하면서 쉽게 해석 가능한 주제를 허용하는 주제 모델링 기술 https://maartengr.github.io/BERTopic/index.html Home - BERTopic BERTopic BERTopic is a topic modeling technique that leverages transformers and c-TF-IDF to create dense clusters allowing for easily interpretable topics whilst keeping important words in the topic descriptions. It even supports..

[NLP] 통계적 언어 모델(Statistical Language Model, SLM)

Language Model 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측한거나 생성하는 모델 통계적 언어 모델(Statistical Language Model, SLM) 단어열이 가지는 확률 분포를 기반으로 각 단어의 조합을 예측하는 전통적인 언어 모델 모델의 목표는 실제로 많이 사용하는 단어열(문장)의 분포를 정확하게 근사하는데 있음 조건부 확률(conditional Probabilities) 언어 모델 조건부 확률을 기준으로 글자나 형태소의 결합 확률을 기반으로 모델링 corpus 내에서 각 단어들의 조합이 나오는 횟수를 카운트한 후 이에 기반하여 확률을 계산 스마트폰의 자동 완성 N-gram 언어 모델 문장 내 단..

[Language Model] T5(Text-to-Text Transfer Transformer)

Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필요 XLNet, RoBERTa, MT-DNN, T5 2. Transformer 구현체를 축소시키면서 성능 손실을 막고 서비스가 가능한 형태로 어떻게 바꿀까? Quantization, Pruning, Knowledge Distillation T5(Text-to-Text Transfer Transformer) Google, 2020, 110억 파라미터 통합 텍스트-텍스트 트랜스포머 전송 학습의 한계 탐구(Exploring the Limits of Transfe..

728x90
반응형