Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
PartCrafter - 北大联合字节开源的单图3D生成模型

PartCrafter - NU United Bytes modelo de generación 3D de una sola figura de código abierto

PartCrafter es un modelo generativo 3D avanzado, propuesto conjuntamente por la Universidad de Pekín, ByteDance y la Universidad Carnegie Mellon. Puede generar a la vez múltiples partes de malla 3D semánticamente explícitas y geométricamente diversas a partir de una sola imagen RGB. El modelo se modela mediante un espacio potencial combinatorio y...
hace 4 meses
026.1K
GigaWorld-0 - 极佳视界开源的世界模型框架

GigaWorld-0 - Marco de modelado del mundo de código abierto de GigaVision

GigaWorld-0 es el marco del modelo mundial de código abierto de la startup nacional de Inteligencia Corporal GigaAI, utilizado principalmente para resolver el problema del cuello de botella de datos en el campo de la Inteligencia Corporal (IA Corporal). Genera de forma eficiente datos de entrenamiento de alta calidad, diversos y físicamente realistas,...
hace 4 meses
025K
Mistral 3 - Mistral AI发布开源的最新多模态大模型系列

Mistral 3 - Mistral AI lanza la nueva serie de grandes modelos multimodales de código abierto

Mistral 3 es la última serie de grandes modelos multimodales lanzada como código abierto por Mistral AI, que incluye el modelo insignia Mistral Large 3 (675B de parámetros totales) y una versión más ligera de la serie Ministral (3B/8B/14B), ambos compatibles con la comprensión de imágenes...
hace 4 meses
023.2K
Vidi2 - 字节跳动开源的多模态视频理解与生成大模型

Vidi2 - Comprensión multimodal de vídeo y generación de grandes modelos de código abierto de ByteHop

Vidi2 es un gran modelo de generación y comprensión de vídeo multimodal de segunda generación de código abierto de ByteDance, centrado en la comprensión, el análisis y la creación de contenidos de vídeo. Admite la entrada conjunta de modalidades de texto, vídeo y audio, y puede comprender simultáneamente contenido de imagen, información de sonido y comandos de lenguaje natural para lograr una interacción intermodal y empujar...
hace 4 meses
027K
Alpamayo-R1 - 英伟达开源的带推理能力的视觉-语言-行动模型

Alpamayo-R1 - Modelo de visión-lenguaje-acción de código abierto de NVIDIA con capacidad de razonamiento

Alpamayo-R1 es un modelo Visión-Lenguaje-Acción (VLA) desarrollado por NVIDIA con capacidad de razonamiento, diseñado para mejorar la capacidad de toma de decisiones de la conducción autónoma en escenarios complejos. Mediante la introducción de un mecanismo de razonamiento de cadena causal, el vehículo es capaz de analizar la causalidad del escenario (por ejemplo, "debido a...
hace 4 meses
034.9K
Ovis-Image - 阿里AIDC-AI团队开源的文生图模型

Ovis-Image - Modelo gráfico aventurado de código abierto por el equipo Ali AIDC-AI

Ovis-Image es un modelo de gráfico generado por texto de 7.000 millones de parámetros de código abierto del equipo AIDC-AI de Alibaba International Digital Commerce Group, centrado en la representación de texto de alta calidad. Basado en la arquitectura Ovis-U1, hereda el decodificador visual avanzado y el refinador bidireccional Token ...
hace 4 meses
022.9K
悟界·Emu3.5 - 智源研究院开源的多模态世界大模型

Wujie-Emu3.5 - Wisdom Source Research Institute gran modelo multimodal del mundo de código abierto

Wujie-Emu3.5 es un macromodelo de mundo multimodal de código abierto del Instituto de Investigación de Inteligencia Artificial Zhiyuan de Pekín, con 34.000 millones de referencias y capacidad de modelado de mundo nativo. Entrenado con 10 billones de Token multimodales (incluidos 790 años de datos de vídeo), puede simular las leyes de la física y lograr la generación de gráficos, la guía visual...
hace 4 meses
026.5K
GELab-Zero - 阶跃团队开源的端侧多模态GUI Agent模型

GELab-Zero - Modelo de agente GUI multimodal de código abierto por el equipo Steps

GELab-Zero es un modelo de agente GUI multimodal de código abierto creado por el equipo Step Leap, basado en el modelo Qwen3-VL-4B-Instruct con parámetros 4B. Puede reconocer elementos de interfaz de usuario y realizar operaciones como hacer clic, deslizar, etc., y admite tareas entre aplicaciones...
hace 4 meses
033.9K
Depth Anything 3 - 字节跳动Seed开源的3D视觉重建模型

Depth Anything 3 - Modelos de reconstrucción visual 3D de código abierto por Bitmap Seed

Depth Anything 3 (DA3) es un modelo de reconstrucción visual 3D desarrollado y de código abierto por el equipo de Byte Jump Seed. A través de una única arquitectura Transformer para lograr la reconstrucción de la geometría espacial en cualquier punto de vista, sólo tiene que predecir el mapa de profundidad y mapa de rayos puede restaurar la escena 3D, en comparación con...
hace 4 meses
035.3K
DeepSeek-Math-V2 - DeepSeek开源的数学推理模型

DeepSeek-Math-V2 - Modelo de razonamiento matemático de código abierto DeepSeek

DeepSeek-Math-V2 es un modelo de razonamiento matemático de código abierto de DeepSeek, una empresa de IA dependiente de Phantom Cube, y la última versión se basa en la mejora de DeepSeek-V3.2-Exp-Base, con un rendimiento superior al de Gemini DeepThink para alcanzar el...
hace 4 meses
028.3K