Círculo de intercambio de inteligencia artificial

Puesta en común diaria de los últimos productos, proyectos, marcos, interpretaciones de documentos, etc.~ sobre IA.
Genie 3 - 谷歌推出的通用世界模型

Genie 3 - El modelo universal del mundo de Google

Genie 3 es una nueva generación de modelos de mundo universales de Google DeepMind que permiten generar mundos virtuales muy dinámicos y coherentes en tiempo real.Genie 3 simula fenómenos físicos, ecosistemas naturales y admite la creación de escenarios fantásticos e históricos. Con indicaciones de texto, los usuarios pueden...
hace 4 días
0902
Claude Opus 4.1 - Anthropic推出的最强编程模型

Claude Opus 4.1 - El modelo de programación más potente de Anthropic

Claude Opus 4.1 es un modelo de lenguaje a gran escala de última generación de Anthropic, diseñado para el procesamiento eficiente de tareas complejas. El modelo destaca en el ámbito de la programación, generando código de alta calidad, soportando hasta 32k de salida única y adaptándose a una amplia gama de estilos de programación....
hace 4 días
01.2K
gpt-oss - OpenAI推出的开源推理模型系列

gpt-oss - una familia de modelos de inferencia de código abierto de OpenAI

gpt-oss es la familia de modelos de inferencia de código abierto de OpenAI que permite soluciones de IA eficientes, flexibles y fáciles de implementar para desarrolladores. gpt-oss se presenta en dos versiones, gpt-oss-120B con 117.000 millones de parámetros y soporte para 8...
hace 4 días
0957
MiDashengLM - 小米开源的声音理解模型

MiDashengLM: el modelo de comprensión de sonido de código abierto de Xiaomi

MiDashengLM es el gran modelo de código abierto de Xiaomi para la comprensión eficaz del sonido, con la versión de parámetros específicos MiDashengLM-7B , centrada en el procesamiento y la comprensión del audio. El modelo se basa en Xiaomi Dasheng codificador de audio y Qwen2.5-Omn...
hace 5 días
0972
MOSS-TTSD - 清华实验室开源的双语对话语音生成模型

MOSS-TTSD - Modelo de código abierto para la generación de diálogos bilingües del laboratorio Tsinghua

MOSS-TTSD es un modelo de diálogo hablado de código abierto desarrollado por el Laboratorio de Habla y Lenguaje de la Universidad de Tsinghua. MOSS-TTSD puede convertir guiones de diálogo de texto en habla de diálogo natural, fluida y expresiva, y admite la generación bilingüe.
hace 5 días
01K
AudioGen-Omni - 快手推出的多模态音频生成模型

AudioGen-Omni - Un modelo de generación de audio multimodal de Racer

AudioGen-Omni es un modelo de generación de audio multimodal de Racer que genera audio, voz y canciones de alta calidad a partir de entradas como vídeo, texto, etc.AudioGen-Omni se basa en técnicas avanzadas como el transformador de difusión multimodal y...
hace 5 días
0942
RedOne - 小红书最新推出的社交大模型

RedOne: el último megamodelo social de Little Red Book

RedOne es un gran modelo lingüístico adaptado a las redes sociales presentado por Little Red Book. El modelo se entrena mediante una estrategia de formación en tres fases que incorpora conocimientos sociales y culturales, refuerza las capacidades multitarea y alinea las preferencias humanas.RedOne supera significativamente al modelo base en rendimiento de tareas sociales, en detección de contenidos nocivos y navegación...
hace 6 días
02K
FastDeploy - 百度推出的高性能大模型推理与部署工具

FastDeploy - Herramienta de Baidu de alto rendimiento para el razonamiento y despliegue de grandes modelos

FastDeploy es una herramienta de razonamiento y despliegue de alto rendimiento de Baidu, diseñada para grandes modelos lingüísticos (LLM) y modelos lingüísticos visuales (VLM). FastDeploy se ha desarrollado a partir del marco Flying Paddle (PaddlePaddle) y es compatible con diversas plataformas de hardware....
hace 6 días
01.4K
InteriorGS - 群核科技推出的3D高斯语义数据集

InteriorGS - Conjunto de datos semánticos gaussianos en 3D de Qunar Technology

InteriorGS es un conjunto de datos semánticos gaussianos 3D de alta calidad presentado por Qunar Technology. El conjunto de datos contiene 1.000 escenas 3D que abarcan más de 80 entornos interiores, como viviendas, tiendas, salones de bodas y museos. El conjunto de datos contiene más de 554.000 instancias de objetos en 755 categorías...
hace 6 días
0882
DragonV2.1 - 微软推出的零样本语音合成模型

DragonV2.1 - Modelos de síntesis de voz sin muestras de Microsoft

DragonV2.1 es un avanzado modelo de conversión de texto a voz (TTS) de muestra cero de Microsoft. Basado en la arquitectura Transformer, el modelo admite la clonación de voz en varios idiomas y sin muestras, y genera un habla natural y expresiva con solo 5-90 segundos de indicaciones de voz.
hace 6 días
01.2K