GPT-NeoX-20B
https://huggingface.co/EleutherAI/gpt-neox-20b
Transformer(Decoder)-based Language Model
GPT-NeoX library를 사용하여 Pile에서 훈련된 자동 회귀 언어 모델(autoregressive language model)
아키텍처는 의도적으로 GPT-3과 유사하며 GPT-J- 6B와 거의 동일합니다.
training 데이터 세트에는 이 모델의 범용 특성을 반영하는 다양한 영어 텍스트가 포함되어 있습니다.
Limitations and biases
GPT-NeoX-20B의 핵심 기능은 텍스트 문자열을 가져와 다음 토큰을 예측하는 것입니다.
통계적으로 가장 가능성이 높은 다음 토큰이 가장 '정확한' 텍스트를 생성할 필요는 없음을 기억하십시오. 사실적으로 정확한 출력을 생성하기 위해 GPT-NeoX-20B에 의존하지 마십시오.
이 모델은 외설적이거나 불쾌감을 주는 욕설 및 텍스트를 포함하는 것으로 알려진 데이터 세트인 Pile에서 훈련되었습니다.
GPT-NeoX-20B는 프롬프트 자체에 명시적으로 공격적인 내용이 포함되어 있지 않더라도 사회적으로 용인되지 않거나 바람직하지 않은 텍스트를 생성할 수 있습니다.
인간 독자에게 제시하기 전에 이 모델의 출력을 큐레이팅하는 것이 좋습니다. 인위적으로 생성된 텍스트를 사용하고 있음을 청중에게 알리십시오.
Training dataset
The Pile은 영어로 된 825GiB 범용 데이터 세트입니다.
대규모 언어 모델 교육을 위해 특별히 EleutherAI에서 만들었습니다. 여기에는 22개의 다양한 출처에서 가져온 텍스트가 포함되어 있으며 대략 다섯 가지 범주로 나뉩니다:
학술 작문(예: arXiv), 인터넷(예: CommonCrawl), 산문(예: Project Gutenberg), 대화(예: YouTube 자막) 및 기타(예: GitHub, Enron 이메일) ).
모든 데이터 소스, 방법론 및 윤리적 함의에 대한 논의는 파일 문서(https://arxiv.org/abs/2101.00027)를 참조하십시오.
Pile은 GPT-NeoX-20B 훈련에 사용되기 전에 중복 제거되지 않았습니다.
'Generative AI > Language Model' 카테고리의 다른 글
Large Language Model (LLM) (0) | 2023.07.11 |
---|---|
[Large Language Model] MPT-7B, MPT-7B-Instruct (0) | 2023.07.11 |
[Large Language Model] mT5-xxl (0) | 2023.07.11 |
[Large Language Model] Flan-UL2 (0) | 2023.07.11 |
[Large Language Model] BLOOMZ & mT0 (0) | 2023.07.11 |