728x90
반응형
mT5-xxl
https://huggingface.co/google/mt5-xxl
An encoder-decoder model based on the T5
pretrained on the mC4 corpus, covering 101 languages (including Korean)
mT5는 supervised training을 제외하고 mC4에서만 pre-trained을 받았습니다. 따라서 이 모델은 downstream task에서 사용할 수 있기 전에 fine-tuned되어야 합니다.
최근의 '텍스트-텍스트 전송 변환기'(T5)는 통합된 텍스트-텍스트 형식 및 확장을 활용하여 다양한 영어 NLP 작업에서 최신 결과를 얻었습니다. 이 백서에서는 101개 언어를 다루는 새로운 Common Crawl 기반 데이터 세트에서 사전 훈련된 T5의 다국어 변형인 mT5를 소개합니다. 우리는 mT5의 설계 및 수정된 교육을 설명하고 많은 다국어 벤치마크에서 최신 성능을 시연합니다. 이 작업에 사용된 모든 코드 및 모델 체크포인트는 공개적으로 사용할 수 있습니다.
728x90
반응형
'Generative AI > Language Model' 카테고리의 다른 글
[Large Language Model] MPT-7B, MPT-7B-Instruct (0) | 2023.07.11 |
---|---|
[Large Language Model] GPT-NeoX-20B (0) | 2023.07.11 |
[Large Language Model] Flan-UL2 (0) | 2023.07.11 |
[Large Language Model] BLOOMZ & mT0 (0) | 2023.07.11 |
[Large Language Model] BLOOM (0) | 2023.07.11 |