Nemotron 3 - Una familia de modelos de IA de código abierto publicada por NVIDIA
Últimos recursos sobre IAPublicado hace 16 horas Círculo de intercambio de inteligencia artificial 1.8K 00
¿Qué es el Nemotron 3?
Nemotron 3 es una familia de modelos de IA de código abierto lanzada por NVIDIA en tamaños Nano, Super y Ultra. El Nemotron 3 Nano se basa en una arquitectura MoE latente que mejora significativamente la eficiencia de la inferencia y reduce los costes operativos. El Nemotron 3 Nano tiene 30.000 millones de parámetros, hasta 3.000 millones por activación, y está optimizado para tareas como depuración de software, resumen de contenidos, flujos de trabajo de asistentes de IA y recuperación de información con bajo coste de inferencia. En comparación con su predecesor, el ficha Nemotron 3 Super y Ultra tienen ~100.000 millones y 500.000 millones de parámetros, respectivamente, y son adecuados para aplicaciones multiinteligencia y escenarios complejos de IA.

Características de Nemotron 3
- arquitectura modeloLa arquitectura Mixture-of-Experts (MoE) combina la capa Mamba, la capa Transformer y el mecanismo de enrutamiento MoE para lograr un procesamiento eficiente de secuencias largas, un razonamiento de alta precisión y una eficiencia computacional escalable. La arquitectura admite sistemas multiinteligencia a gran escala y puede invocar dinámicamente la red de "expertos" para reducir el coste computacional y aumentar el rendimiento.
- tamaño del modelo: Hay tres tamaños disponibles:
- Nano: 30.000 millones de parámetros y 3.000 millones de parámetros activos para tareas ligeras y eficientes como el despliegue de dispositivos de borde.
- Super100.000 millones de parámetros, diseñado para aplicaciones colaborativas multiinteligencia, con énfasis en el razonamiento de alta precisión.
- Ultra: unos 500.000 millones de parámetros para escenarios complejos como la computación científica, el análisis de documentos largos, etc.
- Soporte de contexto extremadamente largoSoporte para 1 millón de ventanas de contexto de token que pueden manejar el contexto completo de la tarea, el historial y los planes complejos, reduciendo la fragmentación de la información.
- Predicción multi-tokenGeneración de múltiples tokens a la vez para mejorar la capacidad de respuesta de tareas como el razonamiento de secuencias largas y la generación de código.
- Baja sobrecarga de memoriaReducir la huella de memoria manteniendo el rendimiento mediante arquitecturas optimizadas y técnicas de cuantificación como NVFP4.
Principales ventajas del Nemotron 3
- Innovación en arquitectura híbridaLa arquitectura MoE combina una capa Mamba con la capa Transformador para optimizar la eficiencia computacional y mejorar el rendimiento del modelo.
- Mejora de la eficacia del razonamiento: Nemotron 3 Nano ofrece un rendimiento 4 veces superior al de su predecesor y una generación de testigos de inferencia 60% más eficiente, lo que reduce significativamente los costes de inferencia.
- Conocimientos sólidos de tratamiento de textos largosEl modelo Nano admite una ventana de contexto de 1 millón de tokens, lo que permite procesar con eficacia textos largos y mejorar la precisión de la asociación de información.
- Múltiples especificaciones para satisfacer diferentes necesidadesLas Nano, Super y Ultra están optimizadas para diferentes escenarios de aplicación, desde tareas ligeras hasta complejas aplicaciones multiinteligencia.
- Código abierto y personalizaciónLos pesos del modelo se publican bajo la licencia NVIDIA Open Model Licence, y los desarrolladores pueden acceder a recetas detalladas de entrenamiento y post-entrenamiento para una fácil personalización y optimización a través de GitHub.
Cuál es la página web oficial de Nemotron 3
- Página web del proyecto:: https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models
- Biblioteca de modelos HuggingFace:: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8
Personas a las que va dirigido el Nemotron 3
- Desarrolladores e investigadores de IANemotron 3 proporciona modelos de código abierto y recetas de formación detalladas para desarrolladores e investigadores que deseen basarse en los modelos existentes para desarrollos personalizados o investigación.
- Equipo técnico de la empresaNemotron 3 es una herramienta de desarrollo de cuerpos inteligentes ideal para organizaciones que requieren capacidades de inferencia eficientes y de bajo coste. Sus características de alto rendimiento y bajo coste de inferencia la convierten en una herramienta ideal para escenarios empresariales como la depuración de software y el resumen de contenidos.
- Desarrolladores de aplicaciones para organismos multiinteligenciaEl diseño multiespecífico del Nemotron 3, especialmente de las versiones Super y Ultra, se presta al desarrollo de escenarios de aplicación multiinteligencia, como complejos sistemas de interacción persona-ordenador o procesos automatizados.
- Desarrollador de asistentes de IA: Las eficaces capacidades de inferencia y procesamiento de textos largos de la versión Nano la hacen ideal para desarrollar aplicaciones como asistentes inteligentes y chatbots que ofrezcan una experiencia de usuario más fluida.
- Instituciones educativas y académicasEl modelo de código abierto y las posibilidades de personalización flexible lo hacen idóneo para que las instituciones educativas lo utilicen en la enseñanza y la investigación, ayudando a estudiantes e investigadores a comprender y aplicar mejor las últimas tecnologías de IA.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




