Llama 2 (2023.02)
Large Language Model Meta AI
Meta AI, Multiple Sizes, downloadable by application
Llama는 ‘Large Language Model Meta AI’의 약자로, Meta AI에서 공개한 대규모 AI 언어 모델입니다.
Llama 2 모델은 70억에서 650억 매개변수에 이르는 다양한 매개변수 크기로 제공됩니다.
Meta는 Llama가 대형 모델을 교육하는 데 필요한 컴퓨팅 성능으로 인해 방해를 받아온 현장에 대한 액세스를 민주화하는 데 도움이 될 수 있다고 주장합니다.
다른 LLM과 마찬가지로 이 모델은 일련의 단어를 입력으로 사용하여 작동하고 텍스트를 재귀적으로 생성하기 위해 다음 단어를 예측합니다. 모델에 대한 액세스는 연구원, 정부 산하기관, 학계 종사자 및 Meta에 지원서를 제출한 후에만 사용할 수 있습니다.
메타가 이 모델을 한정적인 학술 연구원을 대상으로 공개한 것이 알파카(Alpaca), 비큐냐(Vicuna) 등의 수많은 파생형 모델들의 탄생에 기여했다고 합니다.
이미지 출처: (논문) A Survey of Large Language Models
Llama 강점 - 왜 집중받고 있는가.
상업적으로도 이용 가능한 오픈 소스
메타는 Llama의 다음 버전인 Llama 2를 소개하면서 다음과 같이 말을 했습니다.
소프트웨어가 개방돼 있으면 더 많은 사람이 빠르게 문제를 찾아내고 식별하고 해결할 수 있어 안전과 보안을 향상시킬 수 있다.
- 마크 저커버그(메타 CEO)
이처럼 메타는 Llama 2를 상업적으로도 이용 가능한 오픈 소스로 공개했습니다
경량화
Llama 2는 매개변수 규모에 따라 세 가지 모델(70억 개, 130억 개, 700억 개)로 제공됩니다.
거대 컴퓨팅 자원을 갖출 수 없는 신생 기업이나 개발자도 적절한 모델을 선택해 연구 및 상업적 활용을 가능하도록 했습니다.
AI 윤리와 책임성(Responsible AI)에 대해 사회적 관심이 높은 만큼, 안전성과 유용성에 대한 보상 모델을 제작한 것 또한 의미가 있습니다.
Llama 2 특징
Llama 2는 기존 버전보다 40% 더 많은 2조 개의 토큰으로 학습되었습니다.(1.4T→2T 토큰).
컨텍스트 길이도 2배 증가한 4095으로 설정됐습니다.(2K→4K).
매개변수 규모에 따라 세 가지 모델이 제공됩니다.(Llama-2-7B, 13B, 70B).
fine-tuning된 모델은 100만 개 이상의 인간 주석에 대해 훈련되었습니다.
안전성(Safety)과 유용성(Helpfulness)을 위한 두 보상 모델(Rewards Model, RM)을 만들었습니다.
추론, 코딩, 지식 태스크를 포함하는 벤치마크 테스트에서 ‘MPT’, ‘Falcon’ 등의 타 LLM들보다 성능이 뛰어납니다.
무료로 상업적 이용이 가능합니다.
단, 월간 활성 사용자(MAU)가 7억 명의 회사가 활용할 경우 메타와 별도의 라이센스 계약이 필요합니다.
Llama 2는 추론, 코딩, 숙련도 및 지식 테스트를 포함한 많은 외부 벤치마크에서 다른 오픈 소스 언어 모델보다 성능이 뛰어나다고 합니다.
References
'Generative AI > Language Model' 카테고리의 다른 글
[Large Language Model] 최신 LLM 교육을 위한 전력 요구 사항 (1) | 2023.07.13 |
---|---|
[Large Language Model] PaLM (Pathways Language Model) (0) | 2023.07.13 |
[Large Language Model] MT-NLG (0) | 2023.07.13 |
[Large Language Model] LaMDA (0) | 2023.07.13 |
[Large Language Model] ChatGPT (0) | 2023.07.13 |