카테고리 없음

MoE(Mixture of Experts)

데이터 세상 2025. 10. 15. 20:49
반응형

MoE(Mixture of Experts), 전문가 조합 모델

전문가 조합(MoE)은 1991년 Jacobs 등이 처음 제한한 고전적인 앙상블 기법입니다.

논문: 로컬 전문가의 적응형 조합(Adaptive Mixture of Local Experts)

 

MoE layer from the Outrageously Large Neural Network paper

 

인공 지능 모델을 입력 데이터의 하위 집합을 전문으로 하는 별도의 하위 네트워크(또는 '전문가')로 나누어 작업을 공동으로 수행하는 머신 러닝 접근 방식입니다.

즉, 하나의 거대 모델이 모든 데이터를 처리하는 대신 여러 개의 작은 '전문가' 모델들이 입력 데이터의 일부에만 특화되어 작동하는 방식입니다.

 

전문가 조합 아키텍처를 활용하면 수십억 개의 매개변수로 구성된 대규모 모델도 사전 학습 중 계산 비용을 크게 줄이고 추론 시간 동안 더 빠른 성능을 달성할 수 있습니다. 광범위하게 말하면 모든 작업에 대해 전체 신경망을 활성화하는 대신 특정 작업에 필요한 특정 전문가만 선택적으로 활성화함으로써 이러한 효율성을 달성합니다.

이 구조는 게이트 네트워크가 각 입력 데이터를 적합한 전문가에게 라우팅하고, 해당 전문가의 결과만 결합하여 사용하는 희소(sparse) 방식입니다. 따라서 모델의 전체 파라미터 수는 늘어나지만, 한 번의 추론에 사용되는 연산량은 줄어들어 효율성을 극대화할 수 있습니다. 


MoE 모델 동작 원리

MoE 모델은 큰 신경망 내에서 각각 자체 하위 네트워크인 여러 '전문가'를 지정하고 주어진 입력에 가장 적합한 특정 전문가만 활성화하도록 게이팅 네트워크(또는 라우터)의 학습을 진행하여 데이터를 처리합니다.

MoE 접근 방식의 주요 이점은 각 입력 토큰에 대해 전체 신경망을 활성화하는 대신 희소성을 적용함으로써 기본적으로 계산 비용을 일정하게 유지하면서 모델 용량을 늘릴 수 있다는 것입니다.

 

아키텍처 수준에서 이는 기존의 밀집 FFN(피드포워드 네트워크) 레이어를 희소 MoE 레이어(또는 블록)로 대체하여 구현됩니다. 신경망 용어에서 '블록'은 특정 기능을 수행하는 반복되는 구조적 요소를 나타냅니다. 희소 MoE 모델(SMoE)에서 이러한 전문가 블록은 단일 계층, 독립형 FFN 또는 그 자체로 중첩된 MoE일 수 있습니다.

 

예를 들어, Mistral의 Mixtral 8x7B 언어 모델에서 각 계층은 8개의 피드포워드 블록, 즉 전문가로 구성되며 각 블록에는 70억 개의 매개변수가 있습니다. 모든 토큰에 대해 각 계층에서 라우터 네트워크는 데이터를 처리할 8명의 전문가 중 2명을 선택합니다. 그런 다음 이 두 전문가의 출력을 결합하고 결과를 다음 계층으로 전달합니다. 지정된 레이어에서 라우터가 선택한 특정 전문가는 이전 또는 다음 레이어에서 선택한 전문가와 다를 수 있습니다.

Mixtral 8x7B 모델에 대한 가능한 해석

 

단순화된 Mixtral 8x7B 모델 아키텍처

 


핵심 원리

  • 전문가(Expert) 네트워크: 특정 작업에 특화된 여러 개의 신경망으로 구성됩니다. 
  • 게이트(Gate) 네트워크: 입력 데이터가 어떤 전문가에게 가동되어야 할지 결정하고, 각 전문가의 출력에 대한 가중치를 부여합니다. 

 

작동 방식

  • 입력 데이터가 게이트 네트워크를 통과합니다.
  • 게이트 네트워크는 입력에 따라 하나 이상의 전문가를 선택합니다. 
  • 선택된 전문가들이 데이터를 처리하고, 결과는 게이트 네트워크가 정한 가중치에 따라 결합되어 최종 출력을 생성합니다. 

 

장점

  • 연산 효율성: 입력 데이터마다 일부 전문가만 활성화되므로, 모델 크기가 커져도 추론에 드는 계산 비용을 절감할 수 있습니다.
  • 모델 용량 확장: 계산 오버헤드 부담을 최소화하면서 모델의 전체 용량을 크게 확장할 수 있습니다. 
  • 성능 향상: 특정 데이터 유형에 특화된 전문가들이 전문성을 발휘하여 전체 모델의 성능을 높일 수 있습니다. 

 

활용 분야

  • 대규모 언어 모델(LLM)을 포함한 다양한 딥러닝 응용 분야에서 효율성과 성능을 높이기 위해 널리 활용되고 있습니다. 
  • 특히 Mistral AI의 Mistral 7B 모델처럼 여러 개의 작은 모델을 MoE 구조로 결합하는 방식이 주목받고 있습니다. 

References

728x90
반응형