Awex - Marco de intercambio de pesos de código abierto y alto rendimiento del Grupo Ant

Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial

80.8K 00

¿Qué es Awex?

Awex es un marco de intercambio de pesos de alto rendimiento y código abierto de Ant Group, diseñado para la sincronización de parámetros a gran escala en el aprendizaje por refuerzo. Awex puede completar el intercambio de parámetros a nivel de terabyte en segundos, mejorando significativamente la eficiencia del entrenamiento y el razonamiento.Awex tiene un rendimiento de sincronización muy rápido, en un clúster de mil tarjetas, los modelos de parámetros de trillones pueden completarse en 6 segundos de la cantidad total de sincronización. Awex admite la transmisión de redundancia cero y la actualización in situ, y sólo transmite los fragmentos necesarios para reducir la sobrecarga de copia de memoria; admite múltiples modos de transmisión, como NCCL, RDMA y memoria compartida, para aprovechar al máximo el ancho de banda del hardware. Compatible con el despliegue heterogéneo, admite los modos de tarjeta común y tarjeta dividida, y se adapta a diversos escenarios de formación.

Características de Awex

Rendimiento sincronizado extremadamente rápidoEn un entorno de clúster a gran escala, puede completar rápidamente la sincronización de terabytes de parámetros, lo que mejora significativamente la eficacia del entrenamiento y la inferencia del aprendizaje por refuerzo; por ejemplo, en un clúster de mil tarjetas, se puede sincronizar un modelo de un billón de parámetros con el volumen completo en 6 segundos.
Capa de adaptación del modelo unificado (UMAL)Gestión automática de las diferencias de formato y disposición de los tensores entre distintos motores de formación e inferencia, compatibilidad con múltiples arquitecturas de modelos y reducción de la complejidad de desarrollo e implantación.
Transmisión de redundancia cero y actualizaciones in situTransmitiendo sólo los fragmentos de parámetros necesarios, la parte de inferencia actualiza la memoria de vídeo in situ, evitando la sobrecarga de reasignación y copia de memoria de vídeo, y mejorando la eficiencia de la utilización de recursos.
Soporte de transmisión multimodo: Compatible con varios modos de transmisión, como NCCL, RDMA y memoria compartida, aprovecha al máximo las ventajas de ancho de banda de los distintos hardware, al tiempo que reduce la latencia de cola larga y mejora el rendimiento general de la transmisión.
Compatibilidad de implantación heterogéneaAdmite los modos de tarjeta común y tarjeta dividida, adaptándose a los escenarios de entrenamiento de algoritmos de aprendizaje por refuerzo síncronos y asíncronos para satisfacer necesidades de despliegue diversificadas.
Arquitectura enchufable flexible: Admite comportamientos personalizados de reparto de pesos y disposición para distintos modelos, al tiempo que permite acceder a nuevos motores de formación e inferencia con buena escalabilidad y flexibilidad.

Puntos fuertes de Awex

Sincronización de alto rendimientoLograr la sincronización de parámetros a nivel de terabyte segundo a segundo en clústeres a gran escala para mejorar significativamente la eficiencia del entrenamiento y la inferencia del aprendizaje por refuerzo; por ejemplo, en un clúster de kilocalorías, los modelos de trillones de parámetros pueden sincronizarse en todo su volumen en menos de 6 segundos.
alta compatibilidadAdapta automáticamente los formatos y diseños de Tensor a diferentes motores de formación e inferencia, admite múltiples arquitecturas de modelos y reduce la complejidad del desarrollo y la implantación.
Transmisión eficazLa parte de inferencia actualiza la memoria de vídeo in situ transmitiendo únicamente los parámetros necesarios para el corte, lo que evita los gastos generales de reasignación y copia de la memoria de vídeo y mejora la eficiencia de utilización de los recursos.
Soporte de transmisión multimodo: Compatible con múltiples modos de transferencia como NCCL, RDMA y memoria compartida, aprovechando al máximo el ancho de banda del hardware y reduciendo al mismo tiempo la latencia de larga cola.
Arquitectura flexible: Admite comportamientos personalizados de reparto de pesos y disposición, lo que permite acceder a nuevos motores de formación e inferencia con buena escalabilidad y flexibilidad.

Cuál es el sitio web oficial de Awex

Repositorio Github:: https://github.com/inclusionAI/asystem-awex

Para quién es Awex

Investigadores en aprendizaje profundo y por refuerzoLos investigadores que necesitan entrenar y razonar eficientemente en clusters a gran escala, especialmente aquellos equipos que trabajan con modelos paramétricos a gran escala, pueden mejorar significativamente su productividad con Awex.
Ingeniero en Inteligencia ArtificialAwex puede ayudar a los ingenieros responsables de desarrollar e implantar sistemas de aprendizaje por refuerzo en una empresa u organización a sincronizar rápidamente el entrenamiento y la inferencia de modelos para optimizar el rendimiento del sistema.
Computación en nube y operadores de centros de datosEquipos que gestionan recursos informáticos a gran escala: las eficaces funciones de sincronización de parámetros de Awex optimizan la utilización de los recursos y mejoran la eficacia operativa general del centro de datos.
Desarrollador de informática de alto rendimiento (HPC): Los profesionales que necesitan trabajar con datos a gran escala y tareas computacionales complejas, el transporte multimodal y la arquitectura flexible de Awex satisfacen sus necesidades en entornos informáticos de alto rendimiento.