Chatterbox-Turbo - Resemble AI开源的文本到语音模型
Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音(TTS)模型,专为高效、低延迟的语音合成而设计。基于350M参数的精简架构,单步推理生成音频,时间延迟极低,在150...
IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列
IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列,专注于代码智能领域,具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式,从代码库演化...
Mixed Motion 1.0 - Tencent Mixed Motion Team Modelos de movimiento 3D de generación de texto de código abierto
Hybrid Motion1.0 (HY-Motion1.0) es el modelo de acción 3D generado por texto de código abierto del equipo Hybrid de Tencent, que utiliza una arquitectura de transformadores de difusión con mil millones de parámetros, y puede generarse directamente mediante la descripción en lenguaje natural de animaciones de personajes 3D de alta calidad.
Yume1.5 - Modelo de generación de mundos interactivos de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y la Universidad de Fudan
Yume 1.5 es un modelo de generación de mundos interactivos de código abierto, desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Fudan y el Instituto de Investigación en Innovación de Shanghai, capaz de renderizar interactivamente en tiempo real (12 FPS en una sola tarjeta). Adopta la tecnología de modelado conjunto de canales espaciotemporales (TSCM), aunque la longitud del contexto aumente...
AutoMV - Sistema libre de generación de vídeos musicales de código abierto M-A-P en colaboración con Beipiao, NU y otros.
AutoMV es un sistema de generación de vídeos musicales de código abierto desarrollado por el equipo de M-A-P en colaboración con varias universidades, que puede generar automáticamente vídeos musicales coherentes a partir de canciones completas sin necesidad de formación.Adopta un modelo de colaboración multiinteligencia, que incluye módulos de análisis musical, escritura de guiones, dirección y control de calidad, y puede analizar con precisión letras, ritmos...
Tencent-HY-MT1.5 - Serie de modelos híbridos de traducción de código abierto de Tencent
Tencent-HY-MT1.5 es la versión 1.5 del modelo de traducción híbrido de código abierto de Tencent, que incluye dos modelos, 1.8B y 7B, y admite 33 idiomas internacionales y 5 tipos de traducción de chino y chino/dialecto.El modelo 1.8B está especialmente optimizado para teléfonos móviles y otros dispositivos de...
PersonaLive - La Universidad de Macao y otros de código abierto en tiempo real AI retrato animación generación marco vivo
PersonaLive es un marco de código abierto para la transmisión en directo de intercambio de rostros de IA en tiempo real, desarrollado conjuntamente por la Universidad de Macao, dzine.ai y el GVC Lab de la Universidad de la Gran Área de la Bahía. Puede lograr una baja latencia y una alta velocidad de fotogramas en la transmisión digital de personas con tarjetas gráficas ordinarias de consumo (12 GB de memoria de vídeo), y soportar en tiempo real a través de la cámara...
Computer Use Preview - Herramienta de código abierto de Google para la automatización de navegadores con IA
Computer Use Preview es la herramienta de automatización del navegador AI de código abierto de Google basada en el modelo Gemini , a través de comandos de lenguaje natural para lograr la interacción de la página web . El uso de "captura de pantalla → análisis → ejecución" del proceso de reconocimiento visual , el apoyo Playwrigh...
ClipSketch AI - Vídeo AI de código abierto a la herramienta de pantalla dividida dibujado a mano, soporte de la estación B, pequeño libro rojo
ClipSketch AI es una herramienta de código abierto de conversión de vídeo a pantalla dividida dibujada a mano diseñada para creadores de vídeos cortos. Puede convertir vídeos de B station, Xiaohongshu y otras plataformas en storyboards de estilo dibujado a mano en un solo clic, admite el marcado de fotogramas clave, la generación automática de subescenas y social copy, y puede integrar roles definidos por el usuario.
MAI-UI - Modelo de base corporal inteligente GUI universal de código abierto de Ali Tongyi Labs
MAI-UI es un modelo base de cuerpo inteligente GUI universal de código abierto de Alibaba Tongyi Labs, con cuatro capacidades principales: funcionamiento entre aplicaciones, comprensión semántica difusa, interacción activa con el usuario y coordinación de procesos en varios pasos. Adoptando una arquitectura de colaboración extremo-nube, el modelo ligero reside en el dispositivo para gestionar las tareas diarias, y las tareas complejas pueden llamar a la nube big...









