Generative AI/Language Model

[NLP] Language Model이란

데이터 세상 2023. 3. 12. 21:41
728x90
반응형

Transfer Learning

특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다.

학습 데이터의 수가 적을 때 효과적이며, 전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다.

Transfer Learning

 

Upstream Task

(Self-Supervised Learning) 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치(corpus)의 문맥을 이해하는 과제

 

Language Model: upstream task를 수행한 모델을 의미한다.
Pretrain: upstream task를 학습하는 과정, downstream task를 본격적으로 수행하기에 앞서(pre) 학습(train)한다는 의미한다.
 

Downstream Task

문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리의 구체적인 문제들을 의미한다.


Downstream Task 수행하는 방법

Fine Tuning

하나의 태스크를 수행할 수 있는 모델을 만들기 위해 학습 데이터셋을 수집하고 fine-tuning을 진행한다.

  • 다운스트림 태스크 데이터 전체를 사용한다.
  • 다운스트림 데이터에 맞게 모델 전체를 업데이트한다.

 

Prompt Engineering

대규모 언어 모델(LLM)이 일관성 있고 고품질의 텍스트 출력을 생성할 수 있도록 하는 효과적인 프롬프트를 설계하고 제작하는 작업

원하는 출력 결과물을 이해하고 요구 사항을 충족하는 텍스트를 생성하는 모델의 기능을 최대화하는 명확하고 간결한 입력을 제공하는 것을 목표로 한다.

 

프롬프트를 구성하는 방식이 결과물의 퀄리티를 좌우한다!!

출처: https://docs.cohere.ai/docs/prompt-engineering

 

Prompt

모델에 제공하는 광범위한 지침으로, 모델이 원하는 출력을 이해하는 데 도움이 되는 일련의 입력 문구

텍스트는 사용자와 generative  AI 모델 간의 주요 통신 수단

 

Prompt Tuning

모델을 재훈련하거나 가중치를 업데이트하지 않고 AI 기반 모델을 새로운 다운스트림 작업에 적응시키는 효율적이고 저렴한 방법

  • •최고의 단서 또는 프런트엔드 프롬프트가 AI 모델에 제공되어 작업별 컨텍스트를 제공한다.
  • •신속한 조정을 통해 제한된 데이터를 가진 회사는 대규모 모델을 좁은 작업에 맞게 조정할 수 있다.
  • •모델의 수십억(또는 수조)개의 가중치 또는 매개변수를 업데이트할 필요가 없다.

모델은 프롬프트를 사용하여 원하는 출력을 생성하는 방법을 학습한다.

 

 


References

 

 

728x90
반응형