Círculo de intercambio de inteligencia artificial

Puesta en común diaria de los últimos productos, proyectos, marcos, interpretaciones de documentos, etc.~ sobre IA.
Skywork UniPic 2.0 - 昆仑万维开源的高效多模态模型

Skywork UniPic 2.0 - Modelado multimodal eficiente de código abierto por KunlunWanwei

Skywork UniPic 2.0 es un eficiente modelo multimodal de código abierto de Quintessence, centrado en la generación, edición y comprensión de imágenes. El modelo se basa en una arquitectura SD3.5-Medium de 2B parámetros, y se realiza mediante pre-entrenamiento, estrategia de refuerzo progresivo de doble tarea y co-entrenamiento....
hace 8 meses
045.1K
RynnRCP - 阿里达摩院推出的首个开源机器人上下文协议

RynnRCP - Primer protocolo de contexto robótico de código abierto del Instituto Ali Dharma

RynnRCP es un protocolo de contexto robótico (RCP, Robot Context Protocol) de código abierto del Instituto Ali Dharma que reduce el umbral para el desarrollo de la inteligencia incorporada y abre todo el proceso de desarrollo.
hace 8 meses
050.3K
RynnEC - 阿里达摩院开源的世界理解模型

RynnEC - El modelo de comprensión del mundo de código abierto del Instituto Ali Dharma

RynnEC es un modelo de comprensión del mundo presentado por el Instituto Dharma de Alibaba, centrado en tareas de inteligencia incorporada. El modelo se basa en una tecnología de fusión multimodal que combina datos de vídeo y lenguaje natural, y puede analizar objetos de una escena desde múltiples dimensiones, lo que permite funciones como la comprensión de objetos, la percepción espacial y la segmentación de objetivos de vídeo.
hace 8 meses
051K
Matrix-3D - 昆仑万维开源的3D世界生成框架

Matrix-3D - Marco de generación de mundos 3D de código abierto para todo el mundo Kunlun

Matrix-3D es un framework de código abierto del equipo Skywork AI, centrado en la generación de mundos 3D panorámicos explorables. El marco combina técnicas de generación de vídeo panorámico y reconstrucción 3D para generar mundos 3D explorables omnidireccionales de alta calidad a partir de una sola imagen o...
hace 8 meses
051.7K
GLM-4.5V - 智谱推出的多模态开源视觉推理模型

GLM-4.5V - Modelo de razonamiento visual multimodal de código abierto de Smart Spectrum

GLM-4.5V es el modelo de inferencia visual de código abierto líder mundial presentado por Smart Spectrum, con 106.000 millones de parámetros totales y 12.000 millones de parámetros activados. El modelo se entrena a partir del modelo base de texto de nueva generación GLM-4.5-Air, con potentes capacidades de comprensión y razonamiento visual, capaz de manejar imágenes, vídeo...
hace 8 meses
050.7K
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - El modelo universal del mundo de Google

Genie 3 es una nueva generación de modelos de mundo universales de Google DeepMind que permiten generar mundos virtuales muy dinámicos y coherentes en tiempo real.Genie 3 simula fenómenos físicos, ecosistemas naturales y admite la creación de escenarios fantásticos e históricos. Con indicaciones de texto, los usuarios pueden...
hace 8 meses
045.2K
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - El modelo de programación más potente de Anthropic

Claude Opus 4.1 es un modelo de lenguaje a gran escala de última generación de Anthropic, diseñado para el procesamiento eficiente de tareas complejas. El modelo destaca en el ámbito de la programación, generando código de alta calidad, soportando hasta 32k de salida única y adaptándose a una amplia gama de estilos de programación....
hace 8 meses
045.1K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - una familia de modelos de inferencia de código abierto de OpenAI

gpt-oss es la familia de modelos de inferencia de código abierto de OpenAI que permite soluciones de IA eficientes, flexibles y fáciles de implementar para desarrolladores. gpt-oss se presenta en dos versiones, gpt-oss-120B con 117.000 millones de parámetros y soporte para 8...
hace 8 meses
043K
MiDashengLM - 小米开源的声音理解模型

MiDashengLM: el modelo de comprensión de sonido de código abierto de Xiaomi

MiDashengLM es el gran modelo de código abierto de Xiaomi para la comprensión eficaz del sonido, con la versión de parámetros específicos MiDashengLM-7B , centrada en el procesamiento y la comprensión del audio. El modelo se basa en Xiaomi Dasheng codificador de audio y Qwen2.5-Omn...
hace 8 meses
045K
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - Modelo de código abierto para la generación de diálogos bilingües del laboratorio Tsinghua

MOSS-TTSD es un modelo de diálogo hablado de código abierto desarrollado por el Laboratorio de Habla y Lenguaje de la Universidad de Tsinghua. MOSS-TTSD puede convertir guiones de diálogo de texto en habla de diálogo natural, fluida y expresiva, y admite la generación bilingüe.
hace 8 meses
047.8K