[Large Language Model] Llama 2 (Large Langauge Model Meta AI)

Generative AI/Language Model

[Large Language Model] Llama 2 (Large Langauge Model Meta AI)

데이터 세상 2023. 7. 13. 14:45

728x90

Llama 2 (2023.02)

Large Language Model Meta AI

Meta AI, Multiple Sizes, downloadable by application

https://ai.meta.com/llama/

Llama 2 - Meta AI

We have a broad range of supporters around the world who believe in our open approach to today’s AI — companies that have given early feedback and are excited to build with Llama 2, cloud providers that will include the model as part of their offering

ai.meta.com

Llama는 ‘Large Language Model Meta AI’의 약자로, Meta AI에서 공개한 대규모 AI 언어 모델입니다.

Llama 2 모델은 70억에서 650억 매개변수에 이르는 다양한 매개변수 크기로 제공됩니다.

Meta는 Llama가 대형 모델을 교육하는 데 필요한 컴퓨팅 성능으로 인해 방해를 받아온 현장에 대한 액세스를 민주화하는 데 도움이 될 수 있다고 주장합니다.
다른 LLM과 마찬가지로 이 모델은 일련의 단어를 입력으로 사용하여 작동하고 텍스트를 재귀적으로 생성하기 위해 다음 단어를 예측합니다. 모델에 대한 액세스는 연구원, 정부 산하기관, 학계 종사자 및 Meta에 지원서를 제출한 후에만 사용할 수 있습니다.

메타가 이 모델을 한정적인 학술 연구원을 대상으로 공개한 것이 알파카(Alpaca), 비큐냐(Vicuna) 등의 수많은 파생형 모델들의 탄생에 기여했다고 합니다.

이미지 출처: (논문) A Survey of Large Language Models

Llama 강점 - 왜 집중받고 있는가.

상업적으로도 이용 가능한 오픈 소스

메타는 Llama의 다음 버전인 Llama 2를 소개하면서 다음과 같이 말을 했습니다.

소프트웨어가 개방돼 있으면 더 많은 사람이 빠르게 문제를 찾아내고 식별하고 해결할 수 있어 안전과 보안을 향상시킬 수 있다.
- 마크 저커버그(메타 CEO)

이처럼 메타는 Llama 2를 상업적으로도 이용 가능한 오픈 소스로 공개했습니다

경량화

Llama 2는 매개변수 규모에 따라 세 가지 모델(70억 개, 130억 개, 700억 개)로 제공됩니다.

거대 컴퓨팅 자원을 갖출 수 없는 신생 기업이나 개발자도 적절한 모델을 선택해 연구 및 상업적 활용을 가능하도록 했습니다.

AI 윤리와 책임성(Responsible AI)에 대해 사회적 관심이 높은 만큼, 안전성과 유용성에 대한 보상 모델을 제작한 것 또한 의미가 있습니다.

Llama 2 특징

Llama 2는 기존 버전보다 40% 더 많은 2조 개의 토큰으로 학습되었습니다.(1.4T→2T 토큰).

컨텍스트 길이도 2배 증가한 4095으로 설정됐습니다.(2K→4K).

매개변수 규모에 따라 세 가지 모델이 제공됩니다.(Llama-2-7B, 13B, 70B).

fine-tuning된 모델은 100만 개 이상의 인간 주석에 대해 훈련되었습니다.

안전성(Safety)과 유용성(Helpfulness)을 위한 두 보상 모델(Rewards Model, RM)을 만들었습니다.

추론, 코딩, 지식 태스크를 포함하는 벤치마크 테스트에서 ‘MPT’, ‘Falcon’ 등의 타 LLM들보다 성능이 뛰어납니다.

무료로 상업적 이용이 가능합니다.

단, 월간 활성 사용자(MAU)가 7억 명의 회사가 활용할 경우 메타와 별도의 라이센스 계약이 필요합니다.

Llama 2는 추론, 코딩, 숙련도 및 지식 테스트를 포함한 많은 외부 벤치마크에서 다른 오픈 소스 언어 모델보다 성능이 뛰어나다고 합니다.

References

728x90

저작자표시 비영리 변경금지 (새창열림)

'Generative AI > Language Model' 카테고리의 다른 글

[Large Language Model] 최신 LLM 교육을 위한 전력 요구 사항 (1)	2023.07.13
[Large Language Model] PaLM (Pathways Language Model) (0)	2023.07.13
[Large Language Model] MT-NLG (0)	2023.07.13
[Large Language Model] LaMDA (0)	2023.07.13
[Large Language Model] ChatGPT (0)	2023.07.13

현재글[Large Language Model] Llama 2 (Large Langauge Model Meta AI)

데이터와 인공지능 훑어보기