Nemotron 3 - Una familia de modelos de IA de código abierto publicada por NVIDIA

堆友AI

¿Qué es el Nemotron 3?

Nemotron 3 es una familia de modelos de IA de código abierto lanzada por NVIDIA en tamaños Nano, Super y Ultra. El Nemotron 3 Nano se basa en una arquitectura MoE latente que mejora significativamente la eficiencia de la inferencia y reduce los costes operativos. El Nemotron 3 Nano tiene 30.000 millones de parámetros, hasta 3.000 millones por activación, y está optimizado para tareas como depuración de software, resumen de contenidos, flujos de trabajo de asistentes de IA y recuperación de información con bajo coste de inferencia. En comparación con su predecesor, el ficha Nemotron 3 Super y Ultra tienen ~100.000 millones y 500.000 millones de parámetros, respectivamente, y son adecuados para aplicaciones multiinteligencia y escenarios complejos de IA.

Nemotron 3 - 英伟达发布的开源 AI 模型系列

Características de Nemotron 3

  • arquitectura modeloLa arquitectura Mixture-of-Experts (MoE) combina la capa Mamba, la capa Transformer y el mecanismo de enrutamiento MoE para lograr un procesamiento eficiente de secuencias largas, un razonamiento de alta precisión y una eficiencia computacional escalable. La arquitectura admite sistemas multiinteligencia a gran escala y puede invocar dinámicamente la red de "expertos" para reducir el coste computacional y aumentar el rendimiento.
  • tamaño del modelo: Hay tres tamaños disponibles:
    • Nano: 30.000 millones de parámetros y 3.000 millones de parámetros activos para tareas ligeras y eficientes como el despliegue de dispositivos de borde.
    • Super100.000 millones de parámetros, diseñado para aplicaciones colaborativas multiinteligencia, con énfasis en el razonamiento de alta precisión.
    • Ultra: unos 500.000 millones de parámetros para escenarios complejos como la computación científica, el análisis de documentos largos, etc.
  • Soporte de contexto extremadamente largoSoporte para 1 millón de ventanas de contexto de token que pueden manejar el contexto completo de la tarea, el historial y los planes complejos, reduciendo la fragmentación de la información.
  • Predicción multi-tokenGeneración de múltiples tokens a la vez para mejorar la capacidad de respuesta de tareas como el razonamiento de secuencias largas y la generación de código.
  • Baja sobrecarga de memoriaReducir la huella de memoria manteniendo el rendimiento mediante arquitecturas optimizadas y técnicas de cuantificación como NVFP4.

Principales ventajas del Nemotron 3

  • Innovación en arquitectura híbridaLa arquitectura MoE combina una capa Mamba con la capa Transformador para optimizar la eficiencia computacional y mejorar el rendimiento del modelo.
  • Mejora de la eficacia del razonamiento: Nemotron 3 Nano ofrece un rendimiento 4 veces superior al de su predecesor y una generación de testigos de inferencia 60% más eficiente, lo que reduce significativamente los costes de inferencia.
  • Conocimientos sólidos de tratamiento de textos largosEl modelo Nano admite una ventana de contexto de 1 millón de tokens, lo que permite procesar con eficacia textos largos y mejorar la precisión de la asociación de información.
  • Múltiples especificaciones para satisfacer diferentes necesidadesLas Nano, Super y Ultra están optimizadas para diferentes escenarios de aplicación, desde tareas ligeras hasta complejas aplicaciones multiinteligencia.
  • Código abierto y personalizaciónLos pesos del modelo se publican bajo la licencia NVIDIA Open Model Licence, y los desarrolladores pueden acceder a recetas detalladas de entrenamiento y post-entrenamiento para una fácil personalización y optimización a través de GitHub.

Cuál es la página web oficial de Nemotron 3

  • Página web del proyecto:: https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models
  • Biblioteca de modelos HuggingFace:: https://huggingface.co/nvidia/NVIDIA-Nemotron-3-Nano-30B-A3B-FP8

Personas a las que va dirigido el Nemotron 3

  • Desarrolladores e investigadores de IANemotron 3 proporciona modelos de código abierto y recetas de formación detalladas para desarrolladores e investigadores que deseen basarse en los modelos existentes para desarrollos personalizados o investigación.
  • Equipo técnico de la empresaNemotron 3 es una herramienta de desarrollo de cuerpos inteligentes ideal para organizaciones que requieren capacidades de inferencia eficientes y de bajo coste. Sus características de alto rendimiento y bajo coste de inferencia la convierten en una herramienta ideal para escenarios empresariales como la depuración de software y el resumen de contenidos.
  • Desarrolladores de aplicaciones para organismos multiinteligenciaEl diseño multiespecífico del Nemotron 3, especialmente de las versiones Super y Ultra, se presta al desarrollo de escenarios de aplicación multiinteligencia, como complejos sistemas de interacción persona-ordenador o procesos automatizados.
  • Desarrollador de asistentes de IA: Las eficaces capacidades de inferencia y procesamiento de textos largos de la versión Nano la hacen ideal para desarrollar aplicaciones como asistentes inteligentes y chatbots que ofrezcan una experiencia de usuario más fluida.
  • Instituciones educativas y académicasEl modelo de código abierto y las posibilidades de personalización flexible lo hacen idóneo para que las instituciones educativas lo utilicen en la enseñanza y la investigación, ayudando a estudiantes e investigadores a comprender y aplicar mejor las últimas tecnologías de IA.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...