Nemotron 3 - Una familia de modelos de IA de código abierto publicada por NVIDIA
Últimos recursos sobre IAPublicado hace 3 semanas Círculo de intercambio de inteligencia artificial 13.2K 00
¿Qué es el Nemotron 3?
Nemotron 3 es una familia de modelos de IA de código abierto lanzada por NVIDIA en tamaños Nano, Super y Ultra. El Nemotron 3 Nano se basa en una arquitectura MoE latente que mejora significativamente la eficiencia de la inferencia y reduce los costes operativos. El Nemotron 3 Nano tiene 30.000 millones de parámetros, hasta 3.000 millones por activación, y está optimizado para tareas como depuración de software, resumen de contenidos, flujos de trabajo de asistentes de IA y recuperación de información con bajo coste de inferencia. En comparación con su predecesor, el ficha Nemotron 3 Super y Ultra tienen ~100.000 millones y 500.000 millones de parámetros, respectivamente, y son adecuados para aplicaciones multiinteligencia y escenarios complejos de IA.

Características de Nemotron 3
- arquitectura modeloLa arquitectura Mixture-of-Experts (MoE) combina la capa Mamba, la capa Transformer y el mecanismo de enrutamiento MoE para lograr un procesamiento eficiente de secuencias largas, un razonamiento de alta precisión y una eficiencia computacional escalable. La arquitectura admite sistemas multiinteligencia a gran escala y puede invocar dinámicamente la red de "expertos" para reducir el coste computacional y aumentar el rendimiento.
- tamaño del modelo: Hay tres tamaños disponibles:
- Nano: 30.000 millones de parámetros y 3.000 millones de parámetros activos para tareas ligeras y eficientes como el despliegue de dispositivos de borde.
- Super100.000 millones de parámetros, diseñado para aplicaciones colaborativas multiinteligencia, con énfasis en el razonamiento de alta precisión.
- Ultra: unos 500.000 millones de parámetros para escenarios complejos como la computación científica, el análisis de documentos largos, etc.
- Soporte de contexto extremadamente largoSoporte para 1 millón de ventanas de contexto de token que pueden manejar el contexto completo de la tarea, el historial y los planes complejos, reduciendo la fragmentación de la información.
- Predicción multi-tokenGeneración de múltiples tokens a la vez para mejorar la capacidad de respuesta de tareas como el razonamiento de secuencias largas y la generación de código.
- Baja sobrecarga de memoriaReducir la huella de memoria manteniendo el rendimiento mediante arquitecturas optimizadas y técnicas de cuantificación como NVFP4.
Principales ventajas del Nemotron 3
- Innovación en arquitectura híbridaLa arquitectura MoE combina una capa Mamba con la capa Transformador para optimizar la eficiencia computacional y mejorar el rendimiento del modelo.
- Mejora de la eficacia del razonamiento: Nemotron 3 Nano ofrece un rendimiento 4 veces superior al de su predecesor y una generación de testigos de inferencia 60% más eficiente, lo que reduce significativamente los costes de inferencia.
- Conocimientos sólidos de tratamiento de textos largosEl modelo Nano admite una ventana de contexto de 1 millón de tokens, lo que permite procesar con eficacia textos largos y mejorar la precisión de la asociación de información.
- Múltiples especificaciones para satisfacer diferentes necesidadesLas Nano, Super y Ultra están optimizadas para diferentes escenarios de aplicación, desde tareas ligeras hasta complejas aplicaciones multiinteligencia.
- Código abierto y personalizaciónLos pesos del modelo se publican bajo la licencia NVIDIA Open Model Licence, y los desarrolladores pueden acceder a recetas detalladas de entrenamiento y post-entrenamiento para una fácil personalización y optimización a través de GitHub.
Cuál es la página web oficial de Nemotron 3
- Página web del proyecto:: https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models
- Biblioteca de modelos HuggingFace:: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8
Personas a las que va dirigido el Nemotron 3
- Desarrolladores e investigadores de IANemotron 3 proporciona modelos de código abierto y recetas de formación detalladas para desarrolladores e investigadores que deseen basarse en los modelos existentes para desarrollos personalizados o investigación.
- Equipo técnico de la empresaNemotron 3 es una herramienta de desarrollo de cuerpos inteligentes ideal para organizaciones que requieren capacidades de inferencia eficientes y de bajo coste. Sus características de alto rendimiento y bajo coste de inferencia la convierten en una herramienta ideal para escenarios empresariales como la depuración de software y el resumen de contenidos.
- Desarrolladores de aplicaciones para organismos multiinteligenciaEl diseño multiespecífico del Nemotron 3, especialmente de las versiones Super y Ultra, se presta al desarrollo de escenarios de aplicación multiinteligencia, como complejos sistemas de interacción persona-ordenador o procesos automatizados.
- Desarrollador de asistentes de IA: Las eficaces capacidades de inferencia y procesamiento de textos largos de la versión Nano la hacen ideal para desarrollar aplicaciones como asistentes inteligentes y chatbots que ofrezcan una experiencia de usuario más fluida.
- Instituciones educativas y académicasEl modelo de código abierto y las posibilidades de personalización flexible lo hacen idóneo para que las instituciones educativas lo utilicen en la enseñanza y la investigación, ayudando a estudiantes e investigadores a comprender y aplicar mejor las últimas tecnologías de IA.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




