Generative AI/Language Model

[Foundation Model] GPT-4 / GPT-3

데이터 세상 2023. 4. 12. 10:34

GPT-4 (2023.03.14)

OpenAI, Unknown Size, Not Open Source, API Access Only

 

[NLP] GPT : Generative Pre-trained Transformer, OpenAI가 개발한 인공지능 모델

GPT는 자연어 처리를 위한 인공지능 모델로, 방대한 데이터를 머신러닝으로 미리학습(Pre-trained)해 이를 문장으로 생성(Generative)

 

GPT-4는 ChatGPT 유료 상품인 'ChatGPT 플러스'를 통해 사용 가능합니다.

또는 "Bing Chat"을 이용해서도 사용 가능합니다.

 

텍스트뿐 아니라 이미지도 입력할 수 있으므로 엄격하게 언어 전용 모델은 아니지만 여러 전문 의료 및 법률 시험을 포함한 다양한 작업에서 인상적인 성능을 보여줍니다.

또한 GPT-4는 이전 반복에 비해 최대 입력 길이를 확장하여 최대 32,768개의 토큰(약 50페이지의 텍스트)으로 늘립니다. 불행히도 이 모델을 교육하는 데 사용되는 모델 아키텍처 또는 데이터 세트에 대해 거의 밝혀지지 않았습니다.

기능 및 품질의 혁신과 OpenAI의 강력한 실적 덕분에 GPT-4는 자체 모델을 호스팅하지 않고 API에 의존하려는 경우 사용할 LLM으로 선택되었습니다. 


GPT-3 (2020.06)

Open AI, 175 billion parameters, Not Open Source, API Access Only

 

대량의 텍스트 데이터 코퍼스에 대해 사전 훈련된 다음 특정 작업에 대해 fine-tuning 됩니다.

텍스트 또는 문장이 주어지면 GPT-3는 자연어로 텍스트 완성을 반환합니다.

GPT-3는 번역, 질의 응답, 텍스트 완성과 같은 NLP 작업에서 인상적인 few-shot 성능과 zero-shot 성능을 보여줍니다.

  • Train Data: 45TB, 4,100억 단어, 700GB 데이터
  • CPU 28만5천 코어
  • GPU 1만개
  • 전력 1,287MWh

Multimodal Model

다양한 종류의 데이터를 처리하고 이해할 수 있는 기능을 의미한다.


References

 

반응형