Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
Z-Image - 阿里通义实验室开源的图像生成模型

Z-Image - Modelo de generación de imágenes de código abierto de Ali Tongyi Labs

Z-Image es un modelo de generación de imágenes de código abierto de Ali Tongyi Labs con capacidades de generación de imágenes eficientes, rápidas y potentes. Mediante una arquitectura de transformador de difusión de flujo único (S3-DiT), integra texto, semántica visual y tokens VAE de imagen en un flujo de entrada unificado....
hace 4 meses
049.8K
ROCK - 阿里巴巴开源的智能体训练环境沙箱

ROCK: el entorno de código abierto de Alibaba para el entrenamiento corporal inteligente

ROCK (Reinforcement Open Construction Kit) es el sandbox de código abierto de Alibaba para el entorno de entrenamiento de inteligencias, que resuelve el problema de que las inteligencias no pueden entrenarse a escala en entornos reales.ROCK proporciona un servicio de gestión de sandbox altamente estable...
hace 4 meses
026.9K
ViMax - 香港大学开源的多智能体视频生成框架

ViMax - Marco de generación de vídeo corporal multiinteligente de código abierto en la Universidad de Hong Kong

ViMax es un marco de generación de vídeo corporal multiinteligente de código abierto del Data Science Laboratory de la Universidad de Hong Kong, que puede automatizar todo el proceso, desde la entrada creativa hasta la salida de vídeo. La integración de funciones de generación de guiones, diseño de escenas, planificación de tomas y renderización de vídeo permite a los usuarios generar vídeos coherentes de calidad cinematográfica y televisiva mediante la descripción en lenguaje natural ...
hace 4 meses
044K
FLUX.2 - 黑森林开源的图像生成与编辑模型

FLUX.2 - Modelo de generación y edición de imágenes de código abierto de Black Forest

FLUX.2 es un modelo de generación y edición de imágenes de código abierto publicado por Black Forest Labs que admite imágenes textuales sin procesar, referencias a varias imágenes y edición de imágenes con detalles más ricos, texturas claras e iluminación estable. Existen cuatro versiones: FLUX.2 [pro] (comparable al...
hace 4 meses
026.2K
Fara-7B - 微软开源的计算机操作Agent助手模型

Fara-7B - Modelo de asistente informático de código abierto de Microsoft

Fara-7B es una versión de código abierto de Microsoft de un modelo de agente operado por ordenador (CUA) a escala de 7.000 millones de parámetros basado en la arquitectura Qwen 2.5-VL-7B. Al analizar visualmente capturas de pantalla de páginas web y realizar clics, entradas, etc. en la pantalla, no necesita depender de árboles de accesibilidad adicionales ni de múltiples modelos de gran tamaño...
hace 4 meses
031.7K
HunyuanOCR - 腾讯混元开源的光学字符识别专家模型

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

HunyuanOCR es un modelo de reconocimiento óptico de caracteres de alto rendimiento de código abierto creado por el equipo híbrido de Tencent, con sólo 1.000 millones de referencias. Desarrollado sobre la base de la arquitectura multimodal híbrida, adopta un diseño integral y puede gestionar eficazmente tareas de detección y reconocimiento de texto y análisis sintáctico de documentos. El modelo obtuvo 94,1 puntos en la prueba de documentos complejos, superando...
hace 4 meses
033.1K
Supertonic - 开源的高性能AI 文本转语音系统,极速离线运行

Supertonic - Sistema AI de conversión de texto en voz de código abierto y alto rendimiento que funciona offline a velocidades de vértigo.

Supertonic es un sistema de texto a voz (TTS) de código abierto y alto rendimiento centrado en la generación rápida de voz en dispositivos locales. Gracias a la tecnología ONNX Runtime, puede ejecutarse en dispositivos como teléfonos móviles, ordenadores e incluso Raspberry Pi, admite 23 idiomas y clones de voz, y no requiere red....
hace 4 meses
027.6K
MiMo-Embodied - 小米开源的跨领域具身智能基座模型

MiMo-Embodied: el modelo pedestal de inteligencia incorporada multidominio de código abierto de Xiaomi

MiMo-Embodied es el primer modelo base del mundo basado en la inteligencia artificial y la conducción autónoma. Resuelve el problema de la migración de conocimientos entre la IA incorporada y la conducción autónoma, y logra un modelado unificado de tareas en los dos dominios.
hace 4 meses
032.7K
MOSS-Speech - 复旦大学开源的语音到语音大模型

MOSS-Speech - Gran modelo de conversión de voz de código abierto de la Universidad de Fudan

MOSS-Speech es un gran modelo de voz a voz (Speech-to-Speech) de código abierto del equipo del profesor Qiu Xipeng, de la Universidad de Fudan. Rompe con el procesamiento tradicional del habla, sin necesidad de guía textual, y comprende y genera directamente el habla, que puede capturar elementos no textuales como la entonación y la emoción, haciendo...
hace 4 meses
028.1K
Parallax - Gradient开源的全球首个全自主AI操作系统

Parallax - El primer sistema operativo de inteligencia artificial totalmente autónomo del mundo, con código abierto de Gradient

Parallax es el primer "sistema operativo de IA totalmente autónomo" del mundo, de código abierto, creado por Gradient, un laboratorio de IA distribuida. Admite el despliegue multiplataforma de grandes modelos en Mac, Windows y otros dispositivos heterogéneos, lo que permite a los usuarios controlar totalmente el modelo, los datos y la memoria de la IA. El sistema es consciente de la red ...
hace 4 meses
083.8K