Generative AI/Language Model

[Large Language Model] GPT-NeoX-20B

데이터 세상 2023. 7. 11. 15:00
728x90
반응형

GPT-NeoX-20B

https://huggingface.co/EleutherAI/gpt-neox-20b

 

EleutherAI/gpt-neox-20b · Hugging Face

GPT-NeoX-20B is a 20 billion parameter autoregressive language model trained on the Pile using the GPT-NeoX library. Its architecture intentionally resembles that of GPT-3, and is almost identical to that of GPT-J- 6B. Its training dataset contains a multi

huggingface.co

 

Transformer(Decoder)-based Language Model

GPT-NeoX library를 사용하여 Pile에서 훈련된 자동 회귀 언어 모델(autoregressive language model)

아키텍처는 의도적으로 GPT-3과 유사하며 GPT-J- 6B와 거의 동일합니다.

training 데이터 세트에는 이 모델의 범용 특성을 반영하는 다양한 영어 텍스트가 포함되어 있습니다.


Limitations and biases

GPT-NeoX-20B의 핵심 기능은 텍스트 문자열을 가져와 다음 토큰을 예측하는 것입니다.

통계적으로 가장 가능성이 높은 다음 토큰이 가장 '정확한' 텍스트를 생성할 필요는 없음을 기억하십시오. 사실적으로 정확한 출력을 생성하기 위해 GPT-NeoX-20B에 의존하지 마십시오.

이 모델은 외설적이거나 불쾌감을 주는 욕설 및 텍스트를 포함하는 것으로 알려진 데이터 세트인 Pile에서 훈련되었습니다.

GPT-NeoX-20B는 프롬프트 자체에 명시적으로 공격적인 내용이 포함되어 있지 않더라도 사회적으로 용인되지 않거나 바람직하지 않은 텍스트를 생성할 수 있습니다.

인간 독자에게 제시하기 전에 이 모델의 출력을 큐레이팅하는 것이 좋습니다. 인위적으로 생성된 텍스트를 사용하고 있음을 청중에게 알리십시오.


Training dataset

The Pile은 영어로 된 825GiB 범용 데이터 세트입니다.

대규모 언어 모델 교육을 위해 특별히 EleutherAI에서 만들었습니다. 여기에는 22개의 다양한 출처에서 가져온 텍스트가 포함되어 있으며 대략 다섯 가지 범주로 나뉩니다:

학술 작문(예: arXiv), 인터넷(예: CommonCrawl), 산문(예: Project Gutenberg), 대화(예: YouTube 자막) 및 기타(예: GitHub, Enron 이메일) ).

 

모든 데이터 소스, 방법론 및 윤리적 함의에 대한 논의는 파일 문서(https://arxiv.org/abs/2101.00027)를 참조하십시오. 

Pile은 GPT-NeoX-20B 훈련에 사용되기 전에 중복 제거되지 않았습니다.

728x90
반응형