최신 LLM 교육을 위한 전력 요구 사항
LLM(Large Language Model)은 언어 이해 및 생성을 포함하여 인간의 언어 처리 기능을 모방하도록 설계된 컴퓨터 프로그램입니다.
LLM은 텍스트 분류, 질문 응답 및 언어 번역과 같은 자연어 처리(NLP) 작업에 널리 사용됩니다.
그러나 이러한 모델의 교육에는 엄청난 양의 컴퓨팅 성능과 에너지 소비가 필요합니다.
Large Language Model 및 전원 요구 사항
LLM(Large Language Model)은 인간과 유사한 언어를 처리하고 생성할 수 있는 인공 지능 모델입니다.
이러한 모델은 종종 테라바이트 또는 페타바이트 범위의 방대한 양의 데이터에 대해 훈련되며 수십억 개의 매개변수를 가질 수 있습니다.
LLM은 일반적으로 supervised learning이라는 기술을 사용하여 훈련되며, 여기서 모델은 많은 양의 입력-출력 쌍을 입력하고 주어진 입력에 따라 출력을 예측하는 방법을 학습합니다.
LLM의 훈련 프로세스는 계산 집약적이며 상당한 양의 컴퓨팅 성능이 필요합니다.
훈련 LLM에 필요한 전력 요구 사항은 모델 크기, 훈련 데이터 크기, 훈련 반복 횟수, 훈련에 사용되는 하드웨어와 같은 다양한 요인에 따라 달라집니다.
일반적으로 모델 크기와 학습 데이터가 클수록 더 많은 컴퓨팅 성능이 필요합니다.
다양한 Large Language Model의 전력 소비
OpenAI에 따르면 15억 개의 매개변수가 있는 GPT-2는 355년의 단일 프로세서 컴퓨팅 시간이 필요하고 훈련하는 데 28,000kWh의 에너지를 소비했습니다.
이에 비해 1,750억 개의 매개변수가 있는 GPT-3는 355년의 단일 프로세서 컴퓨팅 시간이 필요했고 훈련하는 데 284,000kWh의 에너지를 소비했는데, 이는 GPT-2보다 10배 더 많은 에너지입니다.
3억 4천만 개의 매개변수가 있는 BERT는 64개의 TPU에서 4일 동안 훈련이 필요했고 1,536kWh의 에너지를 소비했습니다.
다른 크기의 언어 모델의 전력 소비
LLM의 전력 소비는 모델 크기에 따라 크게 다릅니다. 모델이 클수록 교육에 더 많은 컴퓨팅 성능과 에너지가 필요합니다.
예를 들어, OpenAI는 284,000kWh의 에너지를 소비하는 1,750억 개의 매개변수로 GPT-3를 훈련했습니다.
반면 파라미터가 15억개에 불과한 GPT-2는 2만8000kWh의 에너지만 소비했습니다.
마찬가지로 1억 개 또는 100억 개의 매개변수가 있는 모델을 훈련하는 것보다 1억 개의 매개변수가 있는 모델을 교육하는 데 훨씬 적은 전력이 필요합니다.
LLM와 다른 AI 애플리케이션의 전력 소비
LLM은 상당한 양의 컴퓨팅 성능과 에너지를 필요로 하는 유일한 AI 애플리케이션이 아닙니다.
컴퓨터 비전 모델 및 음성 인식 모델과 같은 다른 AI 애플리케이션에도 상당한 컴퓨팅 리소스가 필요합니다.
그러나 LLM의 전력 요구 사항은 크기와 복잡성으로 인해 일반적으로 다른 AI 애플리케이션보다 높습니다.
예를 들어 1,750억 개의 매개변수가 있는 OpenAI의 GPT-3는 훈련하는 데 284,000kWh의 에너지를 소비합니다.
이에 비해 2,500만 개의 매개변수가 있는 최첨단 컴퓨터 비전 모델인 ResNet-50은 훈련하는 데 1,500kWh의 에너지만 필요합니다.
이는 LLM의 전력 요구 사항이 다른 AI 애플리케이션보다 훨씬 높다는 것을 나타냅니다.
LLM과 비 AI 애플리케이션의 전력 소비
LLM의 전력 소비도 비 AI 애플리케이션보다 훨씬 높습니다.
예를 들어, 데이터 센터나 제조 공장을 운영하려면 상당한 양의 에너지가 필요하지만 LLM을 훈련하는 것보다 여전히 적은 전력을 소비합니다.
매사추세츠 대학교 연구원의 연구에 따르면 17억 5천만 개의 매개변수로 대규모 언어 모델을 교육하면 최대 626,155파운드의 이산화탄소를 배출할 수 있으며 이는 자동차 5대가 평생 동안 배출하는 양과 맞먹습니다.
반면 5,000대의 서버가 있는 데이터 센터를 1년 동안 운영하는 데 필요한 에너지는 약 4,500톤의 이산화탄소를 배출하는 것으로 추정됩니다.
미래: 에너지 효율성을 향하여
LLM의 전력 요구 사항은 크기와 복잡성에 따라 증가합니다.
그러나 이러한 모델은 훈련 중에 상당한 리소스를 소비함에도 불구하고 일단 훈련되면 놀라울 정도로 효율적일 수 있다는 점에 유의해야 합니다.
예를 들어 GPT-3을 사용하더라도 훈련된 모델에서 100페이지의 콘텐츠를 생성하는 데 드는 비용은 0.4kW-hr 정도이거나 에너지 비용은 몇 센트에 불과합니다(Brown 2020).
또한 이러한 모델이 훈련되면 zero-shot, one-shot 및 few-shot 설정에서 여러 작업에 걸쳐 유망한 결과를 보여줄 수 있습니다.
예를 들어 GPT-3는 다양한 설정에서 CoQA 및 TriviaQA에 대한 인상적인 정확도 점수를 달성했습니다.
결론
결론적으로 대규모 언어 모델(LLM)을 훈련하려면 상당한 양의 컴퓨팅 성능과 에너지가 필요합니다.
LLM의 전력 요구 사항은 크기와 복잡성에 따라 증가합니다.
LLM의 전력 소비는 일반적으로 다른 AI 애플리케이션 및 비 AI 애플리케이션보다 높습니다. 그러나 LLM의 에너지 소비는 비트코인 채굴에 비해 상대적으로 적습니다.
이러한 모델의 사용이 널리 보급됨에 따라 환경 영향을 최소화하기 위해 에너지 효율적인 알고리즘과 하드웨어를 개발하는 것이 중요합니다(Brown 2020). 이것은 빠르게 발전하는 분야이며 이 분야의 최근 발전을 주시하는 것이 좋습니다.
References
'Generative AI > Language Model' 카테고리의 다른 글
LangChain for LLM Application Development (0) | 2023.07.17 |
---|---|
[Generative AI][Large Language Model] State of GPT (0) | 2023.07.17 |
[Large Language Model] PaLM (Pathways Language Model) (0) | 2023.07.13 |
[Large Language Model] Llama 2 (Large Langauge Model Meta AI) (0) | 2023.07.13 |
[Large Language Model] MT-NLG (0) | 2023.07.13 |