UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology
UnifoLM-WMA-0 es una arquitectura de acción-modelo del mundo de código abierto para múltiples clases de ontologías robóticas de Yu Shu Technology, diseñada para el aprendizaje general de robots. Compuesto por un modelo de mundo y una arquitectura de acción, el modelo de mundo entiende las leyes físicas de la interacción robot-entorno, y la arquitectura de acción es responsable de...
InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI
InfiniteTalk es una herramienta de generación de vídeo basada en audio desarrollada por el equipo de MeiGen-AI que genera vídeos hablados de duración ilimitada a partir del audio introducido. Su principal ventaja es la precisa tecnología de sincronización labial, que hace coincidir perfectamente el audio con la forma de la boca del personaje, generando...
ROMA - Marco metaagente de código abierto para la descomposición automática de tareas complejas para el procesamiento paralelo
ROMA (Recursive-Open-Meta-Agent) es un marco de meta-agente de código abierto desarrollado por Sentient AGI para resolver eficientemente problemas complejos a través de la descomposición recursiva de tareas y el procesamiento paralelo. Soporta Python 3.12+, Docker y...
Lumina-DiMOO - Un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y Huawei Rise
Lumina-DiMOO es un modelo unificado de nueva generación para la generación y comprensión multimodal lanzado por el Laboratorio de Inteligencia Artificial de Shanghái (SAL) junto con Huawei Rise en la Conferencia Mundial sobre Inteligencia Artificial 2025. Basado en la plataforma básica de hardware y software Rise AI y en el conjunto de grandes modelos multimodales MindSpeed MM, completa la...
Hyprnote - Herramienta de código abierto para tomar notas de conferencias con inteligencia artificial en primer lugar local
Hyprnote es una herramienta AI de código abierto para tomar notas en reuniones, diseñada para que los profesionales protejan la privacidad de los usuarios y mejoren la eficiencia de las reuniones. Adoptando el principio de "lo local primero", todo el almacenamiento y procesamiento de datos se realiza en el dispositivo local del usuario para garantizar la seguridad de los datos y permitir el funcionamiento sin conexión.
MobileLLM-R1 - Meta serie de modelos de inferencia eficientes especializados de código abierto
MobileLLM-R1 es la serie de código abierto de Meta de modelos de inferencia eficientes diseñados para el razonamiento matemático, de programación y científico. Contiene un modelo base y un modelo final, con versiones de 140 millones, 360 millones y 950 millones de parámetros, respectivamente. Los modelos no son modelos genéricos de chat y son modelos supervisados de ajuste fino (SFT...
ERNIE-4.5-21B-A3B-Pensamiento - Modelo de pensamiento razonador de código abierto de Baidu
ERNIE-4.5-21B-A3B-Thinking es el modelo de lenguaje a gran escala de código abierto de Baidu centrado en tareas de razonamiento. Utilizando la arquitectura Mixed Expert (MoE) , el número total de referencias a 21 mil millones , cada token activa 3 mil millones de parámetros para soportar 128K ventana de contexto largo ...
MobiAgent - framework de código abierto para la creación de cuerpos inteligentes móviles de la Universidad Jiaotong de Shanghai
MobiAgent es una cadena de herramientas de código abierto para cuerpos inteligentes móviles del Laboratorio IPADS de la Universidad Jiaotong de Shanghai, que ayuda a los usuarios a construir sus propios asistentes inteligentes móviles. Mediante el registro de la trayectoria de funcionamiento del usuario y la generación de datos de alta calidad, entrena cuerpos inteligentes capaces de entender órdenes en lenguaje natural. Entre sus principales características se incluyen...
ZipVoice: la familia de modelos de síntesis de voz de código abierto de Xiaomi
ZipVoice es una serie de modelos de síntesis de voz (TTS) basados en la arquitectura Flow Matching lanzada por Xiaomi, entre los que se incluyen ZipVoice (modelo de síntesis de voz de cero muestras para un solo interlocutor) y ZipVoice-Dialog (modelo de síntesis de voz de cero muestras...
PP-OCRv5 - Modelo de IA de código abierto de Baidu para el reconocimiento de texto de nueva generación
PP-OCRv5 es el modelo de IA de reconocimiento de texto de última generación lanzado por Baidu. Con un diseño ligero y un recuento de referencias de solo 0,07 B, es apto para ejecutarse de forma eficiente en CPU y dispositivos edge, y puede procesar más de 370 caracteres por segundo. El modelo admite chino simplificado, chino tradicional, inglés, japonés y pinyin...









