MiniMax Первый открытый MiniMax-01, 4M сверхдлинный контекст, новая архитектура, вызов трансформеру

Новости ИИОбновлено 10 месяцев назад Круг обмена ИИ

36.3K 00

"MoE" плюс "беспрецедентное масштабное внедрение в производственную среду". молния Внимание", плюс "рефакторинг программного и инженерного обеспечения от фреймворка до уровня CUDA" - и что вы получаете?

Ответ - новая модель, которая объединяет возможности лучших моделей и увеличивает длину контекста до уровня 4 миллионов токенов.

MiniMax 首次开源MiniMax-01，4M超长上下文，全新架构，挑战Transformer

15 января компания по макромоделированию MiniMax официально представила давно ожидаемую новую серию моделей: MiniMax-01, состоящую из базовой языковой макромодели MiniMax-Text-01 и визуальной мультимодальной макромодели MiniMax-VL-01, разработанной путем интеграции поверх нее облегченной модели ViT.

MiniMax-01 - это модель MoE (Mixed Expert) с 456 миллиардами общих параметров и 32 экспертами, которая по совокупной мощности в нескольких основных наборах обзоров находится на одном уровне с GPT-4o и Claude 3.5 sonnet, но в то же время имеет в 20-32 раза большую длину контекста, чем современные топовые модели, а при большей длине входных данных она также является моделью с самым долгим спадом производительности. это модель с самым медленным падением производительности. То есть это настоящий контекст с 4 миллионами токенов.

Базовая языковая макромодель MiniMax-Text-01, визуальная мультимодальная макромодель MiniMax-VL-01
Новая архитектура молниеносного внимания, квадратичная к линейной, значительно снижает затраты на умозаключения
Тяжелый открытый исходный код, параметры текстовой модели до 456 миллиардов, 32 эксперта
Сверхдлинный контекст длиной в 4 миллиона слов и производительность, соответствующая лучшим зарубежным моделям
Модель, код и технический отчет были выпущены, очень искренне!

Как веб-интерфейс, так и API уже работают и доступны в режиме онлайн и коммерчески по адресу, указанному в конце статьи.

Новая технология: молниеносное внимание

Самое удивительное в этой модели - новая архитектура линейного внимания.

Мы все знаем, что в реальном использовании ИИ длинный текст имеет решающее значение, длинная память на символы чата, кодирование ИИ для написания кода, агент для выполнения различных задач, сценарий которых неотделим от длинного текста.

Большие модели падают в цене, но чем дольше они используются, тем медленнее и дороже становятся.

Корень этой проблемы заключается в следующем Трансформатор Архитектура имеет квадратичную вычислительную сложность. Арифметическое потребление рассуждений экспоненциально возрастает по мере увеличения контекста.

На этот раз новая модель MiniMax использует механизм линейного внимания Lightning, который позволяет значительно сократить время вычислений и выводов для длинных текстов.

Основные архитектурные схемы для этого моделирования можно увидеть в техническом отчете.

Сокращение потребления ресурсов для вывода модели этой архитектурой огромно, как видно из следующего графика, сравнивающего время вывода для длинного текста, где линейное внимание используется для того, чтобы время вывода медленно увеличивалось почти линейно, а не экспоненциально, по мере роста контекста.

Более подробное описание можно найти в техническом отчете в конце статьи.

Вычисления уменьшаются, цена снижается, а производительность не может быть потеряна надолго для того, чтобы ее можно было использовать по-настоящему.

На графике ниже показана производительность Text-1 на оценочном наборе очень длинных текстов, где он удивительным образом превосходит интервал длиной более 512 Кбайт. Близнецы 2.0 Flash.

Еще один очень интересный момент в техническом отчете - способность модели к контекстному обучению (In-Context Learning), которая постепенно увеличивается по мере улучшения контекста, может стать огромным подспорьем для написания ИИ, а также для задач, требующих долгого запоминания.

В целом, применение механизма Lightning attention позволяет значительно повысить удобство использования длинных текстов для больших моделей, а цена имеет шанс упасть еще на порядок, в будущем ее стоит ждать с большим нетерпением.

Производительность модели, выравнивание первой линии

Что касается показателей производительности модели, то, будучи моделью с открытым исходным кодом, она по многим показателям догоняет лучшие зарубежные модели с закрытым исходным кодом.

А поскольку модель имеет обратную связь с платформой Conch для оптимизации и итераций, пользовательский опыт в реальных сценариях также гарантирован.

Официальное использование реальных пользовательских сценариев для создания тестового набора, вы можете видеть, что производительность в реальных сценариях также очень яркая, особенно заметны три сценария: творческое письмо, викторины знаний, длинный текст.

Кроме того, модель визуального понимания MiniMax-VL-01 по производительности, в основном, по всем показателям равна или превосходит зарубежные топовые модели, особенно практичные сцены OCR и графики.

Следующий момент трансформера

Когда итерации поколений моделей перестают быть свирепыми, длина контекста и логические рассуждения становятся двумя наиболее приоритетными направлениями.

Что касается контекста, то Gemini когда-то была самой длинной. Более того, генеральный директор DeepMind Демси Хассабис рассказал, что в Google модель Gemini уже достигла длины 10 миллионов токенов в экспериментах и, как полагают, в конечном итоге "достигнет бесконечной длины", но что мешает Gemini сделать это сейчас, так это соответствующая стоимость. Но что мешает Gemini сделать это сейчас, так это соответствующая стоимость. В недавнем интервью он сказал, что у Deepmind теперь есть новый подход к решению этой проблемы стоимости.

Так что тот, кто первым сможет увеличить длину контекста и при этом снизить стоимость, наверняка получит преимущество. Судя по результатам, продемонстрированным MiniMax-01, он действительно добился качественного повышения эффективности.

В этом исчерпывающем техническом отчете об эффективности использования аппаратного обеспечения можно судить по одной статистике - при выводе MiniMax достигает 75% MFU на графических процессорах H20.

MFU (Machine FLOPs Utilization) - это фактическое использование аппаратной вычислительной мощности (FLOPs, т.е. операций с плавающей запятой в секунду) моделью во время работы. Короче говоря, MFU описывает, полностью ли модель использует производительность оборудования. Высокий коэффициент использования определенно приведет к преимуществу в стоимости.

MiniMax 01 - это, безусловно, один из редких сюрпризов в недавних дебатах о мертвых стенах.Как уже говорилось выше, два важных направления, одно из которых в области вывода, а другое - в более длинных контекстах, представлены Deepseek V3 и MiniMax-01.

Интересно, что с точки зрения технического маршрута, оба в определенной степени оптимизируют основной механизм внимания в Transformer, который заложил основу для сегодняшнего бума, и это смелый рефакторинг, аппаратное и программное обеспечение в одном. deepSeek V3 был описан как "доящий" карты Nvidia, и для способности MiniMax достичь такого высокого уровня умозаключений MFU очень важно, что они также Они оптимизируют фреймворк для обучения и непосредственно аппаратное обеспечение.

Согласно отчету MiniMax, они разработали ядро CUDA для линейной концентрации внимания непосредственно с нуля, шаг за шагом, и создали различные сопутствующие фреймворки для этой цели, чтобы оптимизировать эффективное использование ресурсов GPU. Обе компании достигли своих целей благодаря более тесной интеграции аппаратных и программных возможностей.

Еще одно интересное наблюдение: обе эти выдающиеся компании уже инвестировали в исследования и разработку технологии больших моделей до появления ChatGPT, и удивительно, что эти две модели не работают в режиме "догнать GPT4", который мы привыкли видеть в прошлом, а, скорее, в соответствии с их собственной оценкой развития технологии, они сделали большие инвестиции и даже некоторые ставки на инновации, и получили ответ после серии продолжительных солидных работ. Вместо этого, основываясь на собственном мнении о развитии технологий, они сделали большие инвестиции и даже некоторые ставки на инновации, и получили ответ после серии продолжительных и серьезных работ.

И ни один из этих ответов не предназначен только для себя - все они пытаются доказать, что некая концепция, которая когда-то была засунута в лабораторию, может дать тот эффект, который она обещает, будучи развернутой в масштабах реального мира, и тем самым позволить большему числу людей продолжить ее оптимизацию.

Это напоминает времена появления трансформеров.

Когда механизм "Внимание" был запущен еще в лаборатории, но споры не утихали, именно Google, поверив в его потенциал, приложила немало усилий и ресурсов, чтобы превратить его из теоретического эксперимента в реальную вещь, реализованную в масштабном развертывании. Далее люди потянулись к проверенному пути к сегодняшнему процветанию.

Трансформер накладывает друг на друга все больше слоев и потребляет все больше энергии, а MiniMax-01 пытается переделать старый механизм внимания, и это снова и снова напоминает дежавю. -Внимание - это все, что вам нужно.

"В настоящее время модель все еще сохраняет 1/8 часть обычного внимания softmax. Мы работаем над более эффективными архитектурами, которые в конечном итоге полностью устранят softmax-внимание, что позволит достичь неограниченных контекстных окон без перегрузки вычислений".

Цена модели

Вход: $1/миллион жетон

Выход: $8/миллион токенов

В основном используйте его с закрытыми глазами.

Ресурсы для моделирования

Код:https://github.com/MiniMax-AI/MiniMax-01

Модели:https://huggingface.co/MiniMaxAI/MiniMax-Text-01, https://huggingface.co/MiniMaxAI/MiniMax-VL-01

Технический отчет:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

Веб-сторона:https://hailuo.ai

API. https://www.minimaxi.com/

Новости ИИ

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Битва за ИИ-поиск в Сяохуншу "Дот Дот": может ли доступ к DeepSeek-R1 захватить рынок поиска?

Новости ИИ

10 месяцев назад

034.1K

Обзор недели: начало 2024 года - достаточно шокирующая неделя для начала создания поля ИИ

Новости ИИ

2 года назад

029.8K

这个AI设计软件厉害了，只要一张产品图就能生成专业的电商主图，爆款产品这不就来了嘛。

Это программное обеспечение AI дизайн является удивительным, пока изображение продукта может генерировать профессиональные электронной коммерции основной картины, всплывающие продукты, которые не приходят хорошо.

Новости ИИ

6 месяцев назад

031.3K

День ИИ: бесплатный сайт для самостоятельного изучения ИИ, созданный Массачусетским технологическим институтом

Новости ИИ

11 месяцев назад

031.5K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

MiniMax Первый открытый MiniMax-01, 4M сверхдлинный контекст, новая архитектура, вызов трансформеру

Новая технология: молниеносное внимание

Производительность модели, выравнивание первой линии

Следующий момент трансформера

Цена модели

Ресурсы для моделирования

Smart Spectrum: заявление о включении в список организаций Министерством торговли США

OpenAI выпустил своего первого ИИ-агента! Теперь ChatGPT может делать за вас вашу работу автоматически!

Похожие статьи

Битва за ИИ-поиск в Сяохуншу "Дот Дот": может ли доступ к DeepSeek-R1 захватить рынок поиска?

Обзор недели: начало 2024 года - достаточно шокирующая неделя для начала создания поля ИИ

День ИИ: бесплатный сайт для самостоятельного изучения ИИ, созданный Массачусетским технологическим институтом

Нет комментариев

Последние коллекции

Последние статьи

MiniMax Первый открытый MiniMax-01, 4M сверхдлинный контекст, новая архитектура, вызов трансформеру

Новая технология: молниеносное внимание

Производительность модели, выравнивание первой линии

Следующий момент трансформера

Цена модели

Ресурсы для моделирования

Smart Spectrum: заявление о включении в список организаций Министерством торговли США

OpenAI выпустил своего первого ИИ-агента! Теперь ChatGPT может делать за вас вашу работу автоматически!

Похожие статьи

Битва за ИИ-поиск в Сяохуншу "Дот Дот": может ли доступ к DeepSeek-R1 захватить рынок поиска?

Обзор недели: начало 2024 года - достаточно шокирующая неделя для начала создания поля ИИ

День ИИ: бесплатный сайт для самостоятельного изучения ИИ, созданный Массачусетским технологическим институтом

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи