MiniMax Первый открытый MiniMax-01, 4M сверхдлинный контекст, новая архитектура, вызов трансформеру
Что получится, если сложить "MoE" плюс "молниеносное внимание в беспрецедентном масштабе для производственных сред" плюс "рефакторинг программного и инженерного обеспечения от фреймворка до уровня CUDA"? "Что вы получаете? Ответ: модель, которая выравнивает возможности топовых моделей и улучшает длину контекста...