BLOOM (2022.11)
https://bigscience.huggingface.co/blog/bloom
논문: https://arxiv.org/abs/2211.05100
BigScience Large Open-science Open-access Multilingual Language Model
176 billion parameters, Downloadable Model, Hosted API Available
BLOOM은 산업 규모의 컴퓨팅 리소스를 사용하여 방대한 양의 텍스트 데이터에 대한 프롬프트에서 텍스트를 계속하도록 훈련된 자동 회귀 대형 언어 모델(autoregressive LLM)입니다.
BLOOM은 명시적으로 훈련되지 않은 텍스트 작업을 텍스트 생성 작업으로 캐스팅하여 수행하도록 지시할 수도 있습니다.
70개국 1000명 이상의 연구원, 250개 이상 연구기관이 협업해 만들어낸 오픈소스 AI 다국어 언어 모델이며,
1.5TB 텍스트 데이터셋을 바탕으로 384개의 엔비디아 A100에서 3개월 넘게 학습했습니다.
46개의 자연어와 13개의 프로그래밍 언어로 텍스트를 생성하며, 이 프로젝트는 GPT-3와 같은 다른 대규모 언어 모델의 범위를 공유하지만 특히 더 투명하고 해석 가능한 모델을 개발하는 것을 목표로 합니다. BLOOM은 반드시 교육의 일부가 아닌 일반적인 텍스트 작업을 수행하기 위해 지침을 따르는 모델 역할을 할 수 있습니다.
- GPT-3와 동등한 1760억 개의 매개변수를 가짐
- 46개국 언어 (no Korean)
- 13가지 프로그래밍 언어
Tokenization
- A byte-level Byte Pair Encoding (BPE) algorithm
- A simple pre-tokenization rule, no normalization
- Vocabulary size of 250,680
BigScience
https://bigscience.huggingface.co/
BigScience는 컨소시엄이나 공식 법인이 아닙니다.
HuggingFace, GENCI 및 IDRIS에 의해 시작되고 연구 워크숍으로 조직된 공개 협업입니다.
이 연구 워크샵은 AI, NLP, 사회 과학, 법률, 윤리 및 공공 정책에 걸쳐 많은 연구 분야에 걸쳐 연구 관심이 있는 여러 소속의 학계, 산업계 및 독립 연구원을 모았습니다.
'Generative AI > Language Model' 카테고리의 다른 글
[Large Language Model] Flan-UL2 (0) | 2023.07.11 |
---|---|
[Large Language Model] BLOOMZ & mT0 (0) | 2023.07.11 |
[Large Language Model] FLAN-T5 (0) | 2023.07.11 |
[Suvey Paper] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond (0) | 2023.06.19 |
[Foundation Model] GPT-4 / GPT-3 (0) | 2023.04.12 |