Nemotron 3 - семейство моделей ИИ с открытым исходным кодом, выпущенное NVIDIA
Что такое Nemotron 3?
Nemotron 3 - это семейство моделей ИИ с открытым исходным кодом, выпущенных NVIDIA в размерах Nano, Super и Ultra. Nemotron 3 Nano построен на скрытой архитектуре MoE, которая значительно повышает эффективность выводов и снижает операционные расходы. Nemotron 3 Nano имеет 30 миллиардов параметров, до 3 миллиардов на одну активацию, и оптимизирован для таких задач, как отладка программного обеспечения, обобщение контента, рабочие процессы ИИ-ассистентов и поиск информации с низкой стоимостью вывода. По сравнению со своим предшественником жетон Nemotron 3 Super и Ultra имеют ~100 миллиардов и 500 миллиардов параметров соответственно и подходят для мультиинтеллектуальных приложений и сложных сценариев ИИ.

Особенности Nemotron 3
- архитектура моделиАрхитектура Mixture-of-Experts (MoE) объединяет уровень Mamba, уровень Transformer и механизм маршрутизации MoE для эффективной обработки длинных последовательностей, высокоточных рассуждений и масштабируемой вычислительной эффективности. Архитектура поддерживает крупномасштабные мультиинтеллектуальные системы и может динамически вызывать сеть "экспертов" для снижения стоимости вычислений и увеличения пропускной способности.
- размер модели: Доступны три размера:
- Нано: 30 миллиардов параметров и 3 миллиарда активных параметров для легких и эффективных задач, таких как развертывание пограничных устройств.
- Супер: 100 миллиардов параметров, предназначен для совместной работы с несколькими интеллектами, с акцентом на высокоточные рассуждения.
- Ультра: около 500 миллиардов параметров для сложных сценариев, таких как научные вычисления, анализ длинных документов и т.д.
- Чрезвычайно долгая поддержка контекста: Поддержка 1 миллиона контекстных окон с маркерами, которые могут обрабатывать полный контекст задачи, историю и сложные планы, уменьшая фрагментацию информации.
- Многоточечное предсказание: Генерируйте несколько лексем за раз, чтобы повысить скорость отклика на такие задачи, как рассуждения о длинных последовательностях и генерация кода.
- Низкая нагрузка на память: Уменьшение занимаемой памяти при сохранении производительности за счет оптимизированных архитектур и методов квантования, таких как NVFP4.
Основные преимущества Nemotron 3
- Инновации в гибридной архитектуреАрхитектура MoE сочетает в себе слой Mamba и Трансформатор слой для оптимизации эффективности вычислений и повышения производительности модели.
- Повышение эффективности рассужденийNemotron 3 Nano обеспечивает в 4 раза более высокую пропускную способность, чем его предшественник, и 60% более эффективную генерацию маркеров вывода, что значительно снижает затраты на вывод.
- Сильные навыки обработки длинных текстов: Модель Nano поддерживает контекстное окно в 1 миллион лексем, что позволяет эффективно обрабатывать длинные тексты и повышает точность объединения информации.
- Различные спецификации для удовлетворения различных потребностейМодели Nano, Super и Ultra оптимизированы для различных сценариев применения - от легких задач до сложных многоинтеллектуальных приложений.
- Открытый исходный код и персонализацияВесовые коэффициенты модели выпускаются под лицензией NVIDIA Open Model Licence, а разработчики могут получить доступ к подробным рецептам обучения и пост-обучения для легкой настройки и оптимизации через GitHub.
Какой официальный сайт у Nemotron 3
- Веб-сайт проекта:: https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models
- Библиотека моделей HuggingFace:: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8
Люди, для которых предназначен Nemotron 3
- Разработчики и исследователи искусственного интеллектаNemotron 3 предоставляет модели с открытым исходным кодом и подробные учебные рецепты для разработчиков и исследователей, которые хотят использовать существующие модели для собственных разработок или исследований.
- Корпоративная техническая команда: Для организаций, которым требуются эффективные и недорогие возможности вывода, высокая пропускная способность и низкая стоимость вывода делают Nemotron 3 идеальным инструментом разработки интеллектуальных тел для таких бизнес-сценариев, как отладка программного обеспечения и обобщение контента.
- Разработчики приложений для органов мультиинтеллекта: Многофункциональная конструкция Nemotron 3, особенно в версиях Super и Ultra, позволяет разрабатывать сценарии применения мультиинтеллекта, например, сложные системы взаимодействия человека и компьютера или автоматизированные процессы.
- Разработчик AI Assistant: Эффективные выводы и возможности обработки длинных текстов в версии Nano делают ее идеальной для разработки таких приложений, как интеллектуальные помощники и чат-боты, обеспечивающие более плавное взаимодействие с пользователем.
- Образовательные и академические учреждения: Модели с открытым исходным кодом и гибкие возможности настройки позволяют использовать его в учебных заведениях для преподавания и исследований, помогая студентам и исследователям лучше понять и применить новейшие технологии ИИ.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




