미니맥스 최초의 오픈 소스 미니맥스-01, 4M 초장축 컨텍스트, 새로운 아키텍처, 도전 트랜스포머

39.2K 00

"MoE"와 "프로덕션 환경에 대한 전례 없는 대규모 도입"을 더했습니다. 번개 주의"와 "프레임워크에서 CUDA 수준으로 소프트웨어 및 엔지니어링 리팩토링"을 더하면 무엇을 얻을 수 있을까요?

그 해답은 상위 모델의 기능을 묶고 컨텍스트 길이를 400만 토큰 수준으로 끌어올린 새로운 모델입니다.

MiniMax 首次开源MiniMax-01，4M超长上下文，全新架构，挑战Transformer

지난 1월 15일, 매크로 모델링 전문 기업 MiniMax는 오랫동안 기다려온 새로운 모델 시리즈, 즉 기본 언어 매크로 모델 MiniMax-Text-01과 그 위에 경량 ViT 모델을 통합하여 개발한 비주얼 멀티 모달 매크로 모델 MiniMax-VL-01을 공식 출시했습니다.

MiniMax-01은 총 파라미터가 4560억 개, 전문가가 32명인 MoE(혼합 전문가) 모델로, 여러 주요 리뷰 세트에서 결합된 파워 측면에서 GPT-4o 및 Claude 3.5 소넷과 동등하며 동시에 오늘날 상위 모델보다 컨텍스트 길이가 20~32배 더 길고 입력 길이가 길어 성능 저하가 가장 긴 모델이기도 합니다. 는 성능 감쇠가 가장 느린 모델입니다. 즉, 실제 400만 개의 토큰 컨텍스트입니다.

기본 언어 매크로 모델 MiniMax-Text-01, 시각적 멀티모달 매크로 모델 MiniMax-VL-01
새로운 라이트닝 주의 아키텍처, 정사각형에서 선형으로 추론 비용을 획기적으로 줄입니다.
방대한 오픈 소스, 최대 4560억 개의 텍스트 모델 매개변수, 32명의 전문가
400만 단어에 달하는 초장축 문맥과 해외 최고 모델에 버금가는 성능
모델, 코드, 기술 보고서가 모두 매우 성실하게 공개되었습니다!

웹 환경과 API는 이제 기사 끝에 있는 주소에서 온라인 및 상업적으로도 사용할 수 있습니다.

새로운 기술: 번개 주목

이 모델에서 가장 놀라운 점은 새로운 선형 주의 집중 아키텍처입니다.

실제 AI 사용에서는 긴 텍스트, 캐릭터 채팅의 긴 메모리, 코드를 작성하는 AI 코딩, 다양한 작업을 완료하는 에이전트 등 긴 텍스트와 떼려야 뗄 수 없는 시나리오가 중요하다는 것을 모두 알고 있습니다.

대형 모델의 가격은 계속 하락하고 있지만, 사용 기간이 길어질수록 속도가 느려지고 가격이 더 비싸지고 있습니다.

이 문제의 근원은 트랜스포머 이 아키텍처는 이차적 계산 복잡성을 가지고 있습니다. 컨텍스트가 증가함에 따라 추론의 산술적 소비가 기하급수적으로 증가하고 있습니다.

이번에 새로 출시된 MiniMax는 긴 텍스트의 계산 및 추론 시간을 크게 단축할 수 있는 선형 주의 메커니즘인 라이트닝 주의 메커니즘을 사용합니다.

이 모델링의 주요 아키텍처 다이어그램은 기술 보고서에서 확인할 수 있습니다.

긴 텍스트의 추론 시간을 비교한 다음 그래프에서 볼 수 있듯이 이 아키텍처에 의한 모델 추론 리소스 소비 감소는 엄청납니다. 선형 주의가 사용되어 문맥이 계속 증가함에 따라 추론 시간이 기하급수적으로 증가하지 않고 거의 선형에 가깝게 천천히 증가하는 것을 볼 수 있습니다.

더 자세한 설명은 글 끝에 있는 기술 보고서에서 확인할 수 있습니다.

계산은 줄어들고 가격은 낮아지며 긴 텍스트를 실제로 사용할 수 있도록 성능을 잃지 않습니다.

아래 그래프는 매우 긴 텍스트 평가 세트에서 Text-1의 성능을 보여주는데, 놀랍게도 512K 이상의 길이 간격을 뛰어넘는 성능을 보여줍니다. 쌍둥이자리 2.0 플래시.

기술 보고서의 또 다른 흥미로운 점은 문맥이 개선됨에 따라 점진적으로 증가하는 모델의 인컨텍스트 학습 능력이 긴 기억을 필요로 하는 작업뿐만 아니라 AI 작문에 큰 도움이 될 수 있다는 점입니다.

전반적으로 라이트닝 주의 메커니즘을 적용하면 대형 모델의 긴 텍스트 사용성이 극적으로 증가하고 가격은 앞으로 한 단계 더 떨어질 가능성이 있으므로 기대할 가치가 있습니다.

모델 성능, 첫 번째 라인 평준화

모델 성능 지표 측면에서는 오픈 소스 모델로서 여러 지표에서 해외 최고 수준의 클로즈드 소스 모델을 따라잡았습니다.

또한 이 모델에는 최적화 및 반복을 위한 Conch 플랫폼의 피드백이 있으므로 실제 시나리오의 사용자 경험도 보장됩니다.

실제 사용자 사용 시나리오를 공식적으로 사용하여 테스트 세트를 구축하면 실제 시나리오의 성능도 매우 밝으며 특히 눈에 띄는 시나리오는 창의적 글쓰기, 지식 퀴즈, 긴 텍스트의 세 가지임을 알 수 있습니다.

또한 시각적 이해 모델인 MiniMax-VL-01은 기본적으로 모든 지표에서 해외 상위 모델과 동등하거나 그 이상의 성능을 발휘하며, 특히 실용적인 OCR 및 차트 장면에서 뛰어난 성능을 발휘합니다.

다음 트랜스포머 모멘트

모델의 세대별 반복이 더 이상 치열하지 않게 되면서 컨텍스트 길이와 논리적 추론이 가장 집중되는 두 가지 방향이 되고 있습니다.

맥락상 제미니는 한때 가장 긴 토큰이었습니다. 또한, 딥마인드의 CEO인 데미 하사비스는 구글 내에서 제미니 모델이 이미 실험을 통해 천만 개의 토큰 길이를 달성했으며 궁극적으로 "무한 길이에 도달할 것"이라고 밝혔지만, 현재 제미니의 발목을 잡고 있는 것은 그에 상응하는 비용입니다. 하지만 현재 제미니의 발목을 잡고 있는 것은 바로 그에 상응하는 비용입니다. 최근 인터뷰에서 그는 딥마인드가 이 비용 문제를 해결하기 위한 새로운 접근법을 가지고 있다고 말했습니다.

따라서 비용을 낮추면서 컨텍스트 길이를 먼저 늘릴 수 있는 쪽이 우위를 점하게 될 것입니다. 미니맥스-01이 보여준 결과를 보면, 실제로 효율성이 질적으로 향상되었습니다.

이 철저한 기술 보고서에서 하드웨어 사용의 효율성은 한 가지 통계로 확인할 수 있습니다. 추론하자면, MiniMax는 H20 GPU에서 75% MFU에 도달합니다. 이는 다소 높은 수치입니다.

MFU(머신 플롭 활용도)는 작동 중 모델의 하드웨어 연산 능력(FLOPs, 즉 초당 부동 소수점 연산)의 실제 활용도를 나타냅니다. 간단히 말해, MFU는 모델이 하드웨어 성능을 최대한 활용하는지를 나타냅니다. 활용률이 높으면 확실히 비용 이점이 있습니다.

미니막스 01은 최근의 사활을 건 논쟁에서 보기 드문 놀라운 제품 중 하나입니다.최근 많은 논의를 불러일으킨 또 다른 하나는 딥시크 V3입니다. 위에서 언급했듯이, 오늘날 추론과 긴 맥락에서 각각 두 가지 중요한 방향이 딥시크 V3와 미니맥스-01에 의해 대표되고 있습니다.

흥미롭게도 기술적 경로 측면에서 볼 때 어느 정도는 둘 다 오늘날 붐의 토대를 마련한 트랜스포머의 핵심 주의 메커니즘을 최적화하고 있으며, 하드웨어와 소프트웨어를 하나로 묶은 대담한 리팩토링입니다. deepSeek V3는 엔비디아의 카드를 건조시키는 것으로 묘사되었으며, MiniMax가 이렇게 높은 추론 MFU를 달성하는 데 결정적인 역할을 했습니다. 트레이닝 프레임워크와 하드웨어를 직접 최적화합니다.

미니맥스의 보고서에 따르면, 그들은 선형 주의 범위를 위한 CUDA 커널을 처음부터 단계별로 직접 심층적으로 개발했으며, 이를 위해 다양한 프레임워크를 개발하여 GPU 리소스의 효율적인 사용을 최적화했습니다. 두 회사는 하드웨어와 소프트웨어의 긴밀한 통합을 통해 목표를 달성했습니다.

또 다른 흥미로운 점은 이 두 개의 뛰어난 회사는 모두 ChatGPT가 등장하기 전에 이미 대형 모델 기술의 연구 개발에 투자한 회사이며, 이 두 모델의 놀라운 점은 우리가 과거에 보았던 "GPT4 따라잡기"모드가 아니라 기술의 진화에 대한 자체 판단에 따라 많은 투자와 혁신에 대한 베팅을하고 일련의 지속적이고 탄탄한 작업 끝에 답을 내놓았다는 점입니다. 대신 기술의 진화에 대한 나름의 판단에 따라 과감한 투자와 혁신에 대한 베팅을 했고, 일련의 지속적이고 탄탄한 작업 끝에 해답을 내놓았습니다.

그리고 이러한 답변은 모두 실험실에만 머물러 있던 개념이 실제 시나리오에 대규모로 배포되었을 때 약속한 효과를 낼 수 있음을 증명하고, 이를 통해 더 많은 사람들이 이를 계속 최적화할 수 있도록 하기 위한 것입니다.

트랜스포머가 등장했을 때를 떠올리게 합니다.

주의 집중 메커니즘이 실험실에서 입소문이 났지만 여전히 논란이 계속되고 있을 때, 이 메커니즘의 잠재력을 믿은 Google은 이론적 실험에서 대규모 배포로 실제 구현하기 위해 산술적 계산과 자원을 쏟아 부었습니다. 다음으로 사람들이 오늘날의 번영으로 가는 검증된 경로에 몰려들었다는 점입니다.

더 많은 레이어를 쌓고 더 많은 전력을 사용하는 트랜스포머와 기존의 주의 집중 메커니즘을 개선하려는 미니맥스-01은 다시 한 번 데자뷰를 경험하게 합니다. 주의 집중 메커니즘을 강조하기 위해 구글 연구원이 제시한 유명한 논문 제목인 "주의 집중만 있으면 충분하다"라는 문구도 미니막스에 딱 들어맞습니다: - - - - - - - - - - - 선형 주의 집중만 있으면 충분하다. -주의만 있으면 됩니다.

"이 모델은 현재 일반 소프트맥스 어텐션의 1/8만 유지합니다. 궁극적으로 소프트맥스 어텐션을 완전히 제거하여 계산 과부하 없이 무제한 컨텍스트 윈도우를 달성할 수 있는 보다 효율적인 아키텍처를 개발 중입니다."