Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo

escritos487 dirección web273 Libro0 hardware0 comentarios0

Depth Anything 3 - Modelos de reconstrucción visual 3D de código abierto por Bitmap Seed

Depth Anything 3 (DA3) es un modelo de reconstrucción visual 3D desarrollado y de código abierto por el equipo de Byte Jump Seed. A través de una única arquitectura Transformer para lograr la reconstrucción de la geometría espacial en cualquier punto de vista, sólo tiene que predecir el mapa de profundidad y mapa de rayos puede restaurar la escena 3D, en comparación con...

Últimos recursos sobre IA

hace 8 meses

049K

DeepSeek-Math-V2 - Modelo de razonamiento matemático de código abierto DeepSeek

DeepSeek-Math-V2 es un modelo de razonamiento matemático de código abierto de DeepSeek, una empresa de IA dependiente de Phantom Cube, y la última versión se basa en la mejora de DeepSeek-V3.2-Exp-Base, con un rendimiento superior al de Gemini DeepThink para alcanzar el...

Últimos recursos sobre IA

hace 8 meses

040.6K

Z-Image - Modelo de generación de imágenes de código abierto de Ali Tongyi Labs

Z-Image es un modelo de generación de imágenes de código abierto de Ali Tongyi Labs con capacidades de generación de imágenes eficientes, rápidas y potentes. Mediante una arquitectura de transformador de difusión de flujo único (S3-DiT), integra texto, semántica visual y tokens VAE de imagen en un flujo de entrada unificado....

Últimos recursos sobre IA

hace 8 meses

064.5K

ROCK: el entorno de código abierto de Alibaba para el entrenamiento corporal inteligente

ROCK (Reinforcement Open Construction Kit) es el sandbox de código abierto de Alibaba para el entorno de entrenamiento de inteligencias, que resuelve el problema de que las inteligencias no pueden entrenarse a escala en entornos reales.ROCK proporciona un servicio de gestión de sandbox altamente estable...

Últimos recursos sobre IA

hace 8 meses

043K

ViMax - Marco de generación de vídeo corporal multiinteligente de código abierto en la Universidad de Hong Kong

ViMax es un marco de generación de vídeo corporal multiinteligente de código abierto del Data Science Laboratory de la Universidad de Hong Kong, que puede automatizar todo el proceso, desde la entrada creativa hasta la salida de vídeo. La integración de funciones de generación de guiones, diseño de escenas, planificación de tomas y renderización de vídeo permite a los usuarios generar vídeos coherentes de calidad cinematográfica y televisiva mediante la descripción en lenguaje natural ...

Últimos recursos sobre IA

hace 8 meses

0113.1K

FLUX.2 - Modelo de generación y edición de imágenes de código abierto de Black Forest

FLUX.2 es un modelo de generación y edición de imágenes de código abierto publicado por Black Forest Labs que admite imágenes textuales sin procesar, referencias a varias imágenes y edición de imágenes con detalles más ricos, texturas claras e iluminación estable. Existen cuatro versiones: FLUX.2 [pro] (comparable al...

Últimos recursos sobre IA

hace 8 meses

040.8K

Fara-7B - Modelo de asistente informático de código abierto de Microsoft

Fara-7B es una versión de código abierto de Microsoft de un modelo de agente operado por ordenador (CUA) a escala de 7.000 millones de parámetros basado en la arquitectura Qwen 2.5-VL-7B. Al analizar visualmente capturas de pantalla de páginas web y realizar clics, entradas, etc. en la pantalla, no necesita depender de árboles de accesibilidad adicionales ni de múltiples modelos de gran tamaño...

Últimos recursos sobre IA

hace 8 meses

046.1K

HunyuanOCR - Modelo experto de código abierto de Tencent para el reconocimiento óptico de caracteres

HunyuanOCR es un modelo de reconocimiento óptico de caracteres de alto rendimiento de código abierto creado por el equipo híbrido de Tencent, con sólo 1.000 millones de referencias. Desarrollado sobre la base de la arquitectura multimodal híbrida, adopta un diseño integral y puede gestionar eficazmente tareas de detección y reconocimiento de texto y análisis sintáctico de documentos. El modelo obtuvo 94,1 puntos en la prueba de documentos complejos, superando...

Últimos recursos sobre IA

hace 8 meses

048.8K

Supertonic - Sistema AI de conversión de texto en voz de código abierto y alto rendimiento que funciona offline a velocidades de vértigo.

Supertonic es un sistema de texto a voz (TTS) de código abierto y alto rendimiento centrado en la generación rápida de voz en dispositivos locales. Gracias a la tecnología ONNX Runtime, puede ejecutarse en dispositivos como teléfonos móviles, ordenadores e incluso Raspberry Pi, admite 23 idiomas y clones de voz, y no requiere red....

Últimos recursos sobre IA

hace 8 meses

042.4K

MiMo-Embodied: el modelo pedestal de inteligencia incorporada multidominio de código abierto de Xiaomi

MiMo-Embodied es el primer modelo base del mundo basado en la inteligencia artificial y la conducción autónoma. Resuelve el problema de la migración de conocimientos entre la IA incorporada y la conducción autónoma, y logra un modelado unificado de tareas en los dos dominios.

Últimos recursos sobre IA

hace 8 meses

047.3K

Más información