blog

Mixtral 8x7B 논문이 드디어 공개되었습니다: 아키텍처 세부 사항, 파라미터 수 최초 공개!

얼마 전 오픈 소스 커뮤니티에서 폭발적인 반응을 불러일으켰던 Mixtral 8x7B MoE 모델 논문이 공개되었습니다. 이전에는 OpenAI 팀이 GPT-4의 파라미터 수와 훈련 ...

Nov 1, 2025 · 8 min. read
シェア

Mixtral 8x7B는 대부분의 벤치마크에서 Llama 2 70B 및 GPT-3.5보다 성능이 뛰어납니다.

얼마 전 오픈 소스 커뮤니티에서 폭발적인 반응을 불러일으켰던 Mixtral 8x7B MoE 모델 페이퍼가 공개되었습니다.

이전에는 OpenAI 팀이 GPT-4의 파라미터 수와 훈련 세부 사항에 대해 매우 말을 아꼈지만, Mistral 8x7B의 출시로 개발자에게 "GPT-4에 매우 가까운" 오픈 소스 옵션이 제공된 것은 확실합니다. 아시다시피, OpenAI도 GPT-4를 구축하기 위해 "하이브리드 전문가 모델" 프레임워크를 채택했다는 사실이 오래 전에 밝혀졌습니다.

논문이 공개되면서 연구의 일부 세부 사항이 공개되었습니다.

Mixtral 8x7B는 대부분의 벤치마크에서 Llama 2 70B 및 GPT-3. 5보다 성능이 뛰어난 개방형 가중치를 갖춘 희소 전문가 혼합 모델로, 작은 배치 크기에서는 더 빠른 추론이 가능하고 큰 배치 크기에서는 더 높은 처리량을 제공합니다.

믹스트랄은 단일 미스트랄 7B와 동일한 아키텍처를 가지고 있습니다.

미스트랄 7B 논문 주소: arxiv.org/pdf/2310.06...

미스트랄 7B와 달리 믹스트랄 8x7B는 디코더 전용 모델로, 각 레이어는 8개의 피드포워드 블록으로 구성됩니다. 각 토큰에 대해 각 레이어에서 라우터 네트워크는 현재 상태를 처리하고 출력을 결합할 두 명의 전문가를 선택합니다. 각 토큰에는 두 명의 전문가만 표시되지만, 선택한 전문가는 각 시간 단계마다 다를 수 있습니다. 따라서 각 토큰은 47B 파라미터에 액세스할 수 있지만 추론 프로세스에서는 13B 활성화 파라미터만 사용됩니다.

이로부터 Mixtral 8x7B는 사람들이 생각하는 8개의 미스트랄 7B 모델이 아니며, 이름에서 8은 8명의 전문가를 의미한다는 것도 분명합니다.

Mixtral 사전 학습 컨텍스트의 크기는 32k이며, 여러 벤치마크에서 Llama 2 70B 및 GPT-3.5의 성능을 충족하거나 능가합니다.특히 수학, 코드 생성 및 다국어 이해가 필요한 작업에서 우수한 성능을 발휘하여 Llama 2 70B를 크게 능가합니다.실험에 따르면 다음과 같은 결과가 나타났습니다. Mixtral은 시퀀스 길이와 시퀀스 내 정보 위치에 관계없이 32,000개의 토큰으로 구성된 컨텍스트 창에서 정보를 성공적으로 검색할 수 있습니다.

이 연구에서는 Mixtral 8x7B 외에도 인간 평가 벤치마크에서 GPT-3.5 터보, 클로드 2.1, 제미니 프로, 라마 2 70B 채팅 모델보다 훨씬 뛰어난 성능을 발휘하는 Mixtral 8x7B - Instruct 채팅 모델도 소개했습니다. Mixtral - Instruct는 또한 BBQ 및 BOLD와 같은 벤치마크에서 편향성이 적습니다.

Mixtral 8x7B 및 Mixtral 8x7B - Instruct는 학술 및 상업적 용도로는 무료라는 점을 언급할 가치가 있습니다.

그러나 일부 연구자들은 믹스트랄의 전문가들이 특히 초기 및 최종 계층에서 도메인보다는 구문에 집중하는 것 같다고 지적했습니다.

Mixtral 8x7B가 흥미로운 이유는 대부분의 LLM이 따르는 접근 방식과 완전히 대조되는 새로운 아키텍처 패러다임인 '전문가 믹싱' 접근 방식을 탐구한다는 점입니다.

MoE는 여러 전문가 모델의 강점을 결합하여 문제를 해결하며, MoE에서는 한 명 또는 소수의 전문가만 사용하여 예측을 수행할 수 있습니다. 이 접근 방식에는 두 가지 주요 구성 요소가 있습니다:

  • 라우터: 주어진 입력에 대해 신뢰할 전문가를 결정하고 주어진 입력에 대해 각 전문가의 결과를 평가하는 방법을 결정합니다.

  • 전문가: 문제의 다양한 측면을 전문적으로 다루는 개별 모델입니다.

믹스트랄의 경우 8명의 전문가가 있으며, 그 중 2명을 선정합니다. 자세한 내용은 다음에서 확인하세요.

아키텍처 세부 정보

스파스 전문가 믹스

전문가 블렌드 레이어는 그림 1에 나와 있습니다.

주어진 입력 x에 대해 MoE 모듈의 출력은 전문가 네트워크의 출력의 가중치 합에 의해 결정되며, 여기서 가중치는 게이트 네트워크의 출력에 의해 주어집니다. 즉, n개의 전문가 네트워크 {E_0, E_i, ..., E_}가 주어지면 전문가 계층의 출력은 다음과 같습니다:

여기서 G _i는 째 전문가의 게이트 네트워크의 n차원 출력을 나타내고 E_i는 째 전문가의 네트워크의 출력을 나타냅니다. 그러나 G를 구현하는 다양한 대안이 있습니다. 간단하고 고성능인 방법 중 하나는 선형 계층의 Top-K 로짓에 소프트맥스를 사용하는 것입니다. 즉

MoE 레이어는 고성능 전용 코어를 갖춘 단일 GPU에서 효율적으로 실행할 수 있습니다. 예를 들어 메가블록은 MoE 계층의 피드포워드 네트워크 작업을 대규모 희소 행렬 곱셈으로 변환하여 실행 속도를 획기적으로 향상시킵니다. 또한 표준 모델 병렬 처리 기법과 전문가 병렬 처리라는 특수 파티셔닝 전략을 사용하여 MoE 레이어를 여러 GPU에 분산할 수 있습니다.

MoE 레이어가 실행되는 동안 특정 전문가가 처리해야 하는 토큰은 처리를 위해 적절한 GPU로 라우팅되며, 전문가의 출력은 원래 토큰 위치로 반환됩니다.

트랜스포머 모델에서 MoE 레이어는 각 토큰에 독립적으로 적용되며, 트랜스포머 블록의 피드포워드 하위 블록을 대체합니다. 믹스트랄의 경우, 이 연구는 전문가 함수 E_i와 동일한 SwiGLU 아키텍처를 사용하고 K = 2로 설정합니다. 즉, 각 토큰은 가중치 세트가 다른 두 개의 SwiGLU 하위 블록으로 라우팅됩니다. 이 모든 것을 종합하면 입력 토큰 x에 대한 출력 y는 다음과 같이 계산됩니다:

실험 및 결과

연구진은 공정한 비교를 위해 자체 평가 파이프라인을 사용해 모든 벤치마크를 다시 실행하여 Mixtral과 Llama를 비교했습니다. 이 연구에서는 상식 추론, 세계 지식, 독해력, 수학, 코드 등 다양한 과제에 대한 성능을 측정했습니다. 구체적인 과제에 대한 자세한 내용은 원본 논문을 참조하세요.

그림 2는 다양한 작업 범주에서 Mixtral과 Llama의 성능을 비교한 것입니다. 대부분의 메트릭에서, 특히 코드 및 수학 벤치마크에서 Mixtral이 Llama 2 70B보다 우수한 성능을 보였습니다.

연구진은 믹스트랄과 라마 2 제품군을 비교했습니다. 그림 3에서 볼 수 있듯이, 희소 전문가 혼합 모델인 Mixtral은 토큰당 130억 개의 활성화 매개변수만 사용합니다. 활성화 매개변수가 5배 감소했음에도 불구하고, Mixtral은 대부분의 카테고리에서 70억 개의 매개변수를 사용하는 Llama 2보다 더 나은 성능을 보였습니다.

표 3은 믹스트랄 8x7B와 라마 2 70B 및 GPT-3.5의 성능 비교를 보여줍니다. 연구진은 Mixtral의 성능이 다른 두 모델과 비슷하거나 더 우수하다는 것을 발견했습니다. MMLU에서는 훨씬 작은 용량에도 불구하고 Mixtral이 더 나은 성능을 보였습니다.

다국어 벤치마킹

연구원들은 미스트랄 7B와 비교하여 사전 훈련 중에 샘플링된 다국어 데이터의 비율을 크게 늘렸습니다. 추가 용량 덕분에 Mixtral은 다국어 벤치마크 테스트에서 높은 수준의 영어 정확도를 유지하면서 우수한 성능을 발휘할 수 있었습니다. 표 4에서 볼 수 있듯이 Mixtral은 프랑스어, 독일어, 스페인어, 이탈리아어에서 라마 2 70B보다 훨씬 뛰어난 성능을 보였습니다.

장거리 성능

그림 4의 결과는 Mixtral이 컨텍스트 길이나 시퀀스 내 패스키 위치에 관계없이 100%의 검색 정확도를 달성한다는 것을 보여줍니다. 그림 4는 컨텍스트 크기가 증가함에 따라 증명 더미 데이터 세트의 하위 집합에서 Mixtral의 난해도가 단조롭게 감소함을 보여줍니다.

바이어스 벤치마킹

연구원들은 자체 평가 프레임워크를 사용하여 BBQ와 BOLD에서 Llama 2와 Mixtral을 벤치마킹했으며 그 결과는 표 5에 나와 있습니다. 믹스트랄은 BBQ 벤치마크 테스트에서 라마 2에 비해 편향성이 덜한 것으로 나타났습니다. BOLD의 경우 평균 감정 점수가 높을수록 긍정적인 감정이 더 많음을 의미하며, 표준편차가 낮을수록 클러스터 내 편향성이 적음을 나타냅니다. 전반적으로 믹스트랄은 라마 2보다 더 긍정적인 영향을 미쳤으며, 그룹 내 차이는 비슷했습니다.

라우팅 분석

연구진은 라우터가 선택한 전문가에 대한 소수의 분석을 수행했으며, 특히 교육 과정에서 일부 전문가가 수학, 생물학, 철학 등 특정 분야를 전문으로 하는지 여부를 파악하는 데 관심을 가졌습니다.

이를 조사하기 위해 연구진은 더 파일 검증 데이터 세트의 다양한 하위 집합에서 선택된 전문가들의 분포를 측정했습니다. 그림 7은 레이어 0, 15, 31에 대한 결과를 보여줍니다.

놀랍게도 연구자는 주제에 따른 전문가 배정에서 명확한 패턴을 관찰하지 못했습니다. 예를 들어, ArXiv 논문, 생물학, 철학 문서의 전문가 배정 분포는 모든 계층에서 매우 유사했습니다. DM 수학에서만 전문가 분포가 약간 달랐습니다.

이는 라우터가 구조화된 구문 동작을 보인다는 것을 의미합니다.

그림 8은 각 토큰이 선택한 전문가에 해당하는 배경색으로 강조 표시된 서로 다른 도메인의 텍스트 예시를 보여줍니다. 그림 8에서 볼 수 있듯이 연속된 토큰이 동일한 전문가에게 할당되는 경우가 많습니다.

각 토큰은 첫 번째 전문가 선택에 따라 색상이 지정됩니다. 전문가 선택은 특히 초기 및 최종 레이어에서 도메인보다 구문에 더 적합한 것으로 보입니다.

표 5는 각 도메인 및 계층에서 동일한 전문가를 배정받는 연속 토큰의 비율을 보여줍니다. 상위 계층일수록 무작위 할당보다 반복되는 연속 할당 비율이 훨씬 높습니다.

실제로 이 논문이 공개되었을 때 Mixtral 모델이 공개되었고, 많은 연구자들이 Mixtral 8x7B를 더 깊이 연구했습니다. 예를 들어 16GB의 비디오 메모리와 11GB의 RAM이 있는 컴퓨터가 있는 경우 로컬에서 모델을 실행하거나 Google Colab에서 실행할 수 있습니다.

  • Jupiter Notebook

  • :

또한, 결합한 연구자들도 있습니다.

논문이 공개되면 더 많은 개선된 애플리케이션이 등장할 것으로 확신합니다.

기술적인 자세한 내용은 원본 문서를 참조하세요.

Read next

ReentrantLock 기본 구현

동기화와의 차이점, 잠금 및 잠금 해제 프로세스에 대한 자세한 설명, 관련 핵심 메서드의 세부 사항과 비교하여 Java에서 ReentrantLock의 구현을 심층적으로 분석하여 독자가 ReentrantLock의 내부 메커니즘을 더 명확하게 이해할 수 있도록 합니다.

Nov 1, 2025 · 10 min read