Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
VoxCPM - 面壁智能联合清华开源的端到端TTS模型

VoxCPM - Inteligencia de cara al futuro y modelo TTS de código abierto de Tsinghua

VoxCPM es un modelo de generación de voz de código abierto desarrollado conjuntamente por Facade Intelligence y la Shenzhen International Graduate School de la Universidad de Tsinghua. VoxCPM adopta una arquitectura autorregresiva de difusión de extremo a extremo para generar representaciones continuas del habla directamente a partir del texto, superando las limitaciones de la desambiguación discreta tradicional. Mediante el modelado jerárquico del lenguaje y la cuantización de estados finitos...
hace 3 semanas
014K
InternVLA·N1 - 上海AI Lab开源的端到端双系统导航大模型

InternVLA-N1 - Modelo grande de navegación de doble sistema de código abierto de Shanghai AI Lab

InternVLA-N1 es un macromodelo de navegación de doble sistema de extremo a extremo de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Utilizando una arquitectura de doble sistema, el Sistema 2 se encarga de comprender las órdenes lingüísticas y planificar las trayectorias de largo alcance, mientras que el Sistema 1 se centra en la respuesta de alta frecuencia y la evitación ágil de obstáculos. El modelo se entrena íntegramente a partir de datos sintéticos mediante ...
hace 3 semanas
09.8K
VLAC - 上海AI Lab开源的具身奖励大模型

VLAC - Gran modelo de recompensas encarnadas de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

VLAC es un macromodelo de recompensa encarnada de código abierto del Laboratorio de Inteligencia Artificial de Shanghai. Basado en el macromodelo multimodal InternVL, integra datos de vídeo de Internet y datos de funcionamiento del robot para proporcionar una estimación de la recompensa del proceso y la finalización de la tarea para el aprendizaje por refuerzo del robot en el mundo real.
hace 3 semanas
09.4K
InternVLA·M1 - 上海AI Lab开源的具身双系统操作“大脑”

InternVLA-M1 - "Cerebro" de funcionamiento del sistema dual encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai

InternVLA-M1 es un "cerebro" operativo encarnado de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, que es un gran modelo de funcionamiento de dos sistemas orientado al seguimiento de instrucciones. Construye un bucle cerrado completo que abarca "pensar-actuar-aprender" y es responsable del razonamiento espacial de alto nivel y de la planificación de tareas. El modelo adopta una política de entrenamiento en dos etapas...
hace 4 semanas
010.7K
PromptEnhancer - 腾讯混元开源的AI提示词增强工具

PromptEnhancer - Tencent Mixed Meta Herramienta de código abierto AI Prompt Word Enhancement

PromptEnhancer es una herramienta de código abierto para mejorar la generación de modelos texto-imagen (Text-to-Image, T2I). A través del enfoque de cadena de razonamiento (Chain-of-Thought, CoT) ...
hace 4 semanas
010K
UnifoLM-WMA-0 - 宇树科技开源的世界模型动作架构

UnifoLM-WMA-0 - Arquitectura de acción del modelo mundial de código abierto de Ushu Technology

UnifoLM-WMA-0 es una arquitectura de acción-modelo del mundo de código abierto para múltiples clases de ontologías robóticas de Yu Shu Technology, diseñada para el aprendizaje general de robots. Compuesto por un modelo de mundo y una arquitectura de acción, el modelo de mundo entiende las leyes físicas de la interacción robot-entorno, y la arquitectura de acción es responsable de...
hace 4 semanas
011.6K
InfiniteTalk - 美团视觉AI开源的音频驱动视频生成工具

InfiniteTalk - Herramienta de código abierto de generación de vídeo basado en audio para Mission Vision AI

InfiniteTalk es una herramienta de generación de vídeo basada en audio desarrollada por el equipo de MeiGen-AI que genera vídeos hablados de duración ilimitada a partir del audio introducido. Su principal ventaja es la precisa tecnología de sincronización labial, que hace coincidir perfectamente el audio con la forma de la boca del personaje, generando...
hace 4 semanas
015.1K
ROMA - 开源的元Agent框架,自动分解复杂任务并行处理

ROMA - Marco metaagente de código abierto para la descomposición automática de tareas complejas para el procesamiento paralelo

ROMA (Recursive-Open-Meta-Agent) es un marco de meta-agente de código abierto desarrollado por Sentient AGI para resolver eficientemente problemas complejos a través de la descomposición recursiva de tareas y el procesamiento paralelo. Soporta Python 3.12+, Docker y...
hace 4 semanas
012.5K
Lumina-DiMOO - 上海AI Lab联合华为昇腾开源的多模态大模型

Lumina-DiMOO - Un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai y Huawei Rise

Lumina-DiMOO es un modelo unificado de nueva generación para la generación y comprensión multimodal lanzado por el Laboratorio de Inteligencia Artificial de Shanghái (SAL) junto con Huawei Rise en la Conferencia Mundial sobre Inteligencia Artificial 2025. Basado en la plataforma básica de hardware y software Rise AI y en el conjunto de grandes modelos multimodales MindSpeed MM, completa la...
hace 4 semanas
09.4K
Hyprnote - 开源的本地优先AI会议笔记工具

Hyprnote - Herramienta de código abierto para tomar notas de conferencias con inteligencia artificial en primer lugar local

Hyprnote es una herramienta AI de código abierto para tomar notas en reuniones, diseñada para que los profesionales protejan la privacidad de los usuarios y mejoren la eficiencia de las reuniones. Adoptando el principio de "lo local primero", todo el almacenamiento y procesamiento de datos se realiza en el dispositivo local del usuario para garantizar la seguridad de los datos y permitir el funcionamiento sin conexión.
hace 4 semanas
08.6K