Círculo de intercambio de inteligencia artificial

La IA está cambiando el mundo
Qwen3-Max-Preview - 通义千问推出的旗舰大语言模型

Qwen3-Max-Preview - Modelo emblemático de gran lenguaje de Tongyi Qianqian

Qwen3-Max-Preview es el último gran modelo lingüístico insignia lanzado por Tongyi Qianwen. Es el modelo con el mayor número de parámetros de la familia Qwen3, con un tamaño de parámetros de más de 1 billón. El modelo presenta mejoras significativas en inferencia, seguimiento de instrucciones, soporte multilingüe y cobertura de conocimiento de cola larga...
hace 9 meses
043.1K
OneCAT - 美团联合上海交大开源的多模态模型

OneCAT - Modelo multimodal de código abierto para Meituan y la Universidad Jiaotong de Shanghai

OneCAT es un nuevo modelo multimodal unificado lanzado por Meituan junto con la Universidad Jiaotong de Shanghai, que adopta una arquitectura de descodificador puro que integra a la perfección la comprensión multimodal, la generación de texto a imagen y las funciones de edición de imágenes. El modelo abandona el diseño de los modelos multimodales tradicionales que dependen de codificadores y desambiguadores visuales externos mediante...
hace 9 meses
041K
Claudable - 开源AI Web应用构建器,自然语言生成代码

Claudable - Constructor de aplicaciones web de IA de código abierto, código generado en lenguaje natural

Claudable es un creador de aplicaciones web de código abierto basado en Next.js que combina las capacidades avanzadas de agente de IA de Claude Code y Cursor CLI con la experiencia de creación de aplicaciones sencilla e intuitiva de Lovable...
hace 9 meses
045.2K
FineVision - Hugging Face推出的开源视觉语言数据集

FineVision - Hugging Face lanza un conjunto de datos de código abierto sobre el lenguaje visual

FineVision es el conjunto de datos de lenguaje visual de código abierto de Hugging Face para el entrenamiento de modelos avanzados de lenguaje visual. Contiene 17,3 millones de imágenes, 24,3 millones de muestras, 88,9 millones de rondas de diálogo y 9.500 millones de tokens de respuesta. El conjunto de datos...
hace 9 meses
043.4K
HunyuanWorld-Voyager - 腾讯开源的超长漫游世界模型

HunyuanWorld-Voyager - Modelo mundial de itinerancia ultralarga de código abierto de Tencent

HunyuanWorld-Voyager (abreviado Hunyuan Voyager) es el primer modelo de mundo itinerante ultralargo de la industria lanzado por Tencent que admite la reconstrucción nativa en 3D. Se trata de un novedoso marco de difusión de vídeo que genera secuencias de nubes de puntos 3D de trayectorias de cámara definidas por el usuario a partir de una sola imagen,...
hace 9 meses
042.7K
Hunyuan-MT-7B - 腾讯混元开源的轻量级翻译模型

Hunyuan-MT-7B - Modelo de traducción ligera de código abierto Tencent Mixed Meta

Hunyuan-MT-7B es un modelo de traducción ligero introducido por el Mixed Meta Team de Tencent, con 7.000 millones de referencias, que admite la traducción mutua de 33 idiomas y 5 lenguas/dialectos del chino popular, incluidos el cantonés, el uigur y el tibetano. En el concurso WMT2025 de la Asociación Internacional de Lingüística Computacional (ACL)...
hace 9 meses
040.2K
Step-Audio 2 mini - 阶跃星辰开源的语音大模型

Step-Audio 2 mini - Macromodelado del habla de código abierto Step-Star

Step-Audio 2 mini es un macromodelo del habla integral de código abierto de Step-Audio. Rompe con la estructura tradicional del modelo del habla y adopta una verdadera arquitectura multimodal de extremo a extremo, que transforma directamente la entrada de audio sin procesar en salida de respuesta del habla, con menor latencia, y comprende la información paralingüística y las señales no vocales.
hace 9 meses
048.5K
MobileCLIP2 - 苹果公司开源的高效端侧多模态模型

MobileCLIP2: el eficiente modelo multimodal de código abierto de Apple

MobileCLIP2 es una versión mejorada de MobileCLIP, un eficiente modelo multimodal de extremo introducido por investigadores de Apple. Optimizado para el entrenamiento de refuerzo multimodal, integra el modelo de profesor CLIP mediante el entrenamiento de un mejor rendimiento en el conjunto de datos DFN y la mejora de la generat...
hace 9 meses
053.1K
InternVL3.5 - 上海AI实验室开源的多模态大模型

InternVL3.5 - Modelos grandes multimodales de código abierto de Shanghai AI Lab

InternVL3.5 (Shusheng-Wanxiang 3.5) es un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, el modelo está totalmente actualizado en términos de capacidad general, capacidad de razonamiento y eficiencia de despliegue, proporcionando nueve tamaños de versiones de 1.000 millones a 241.000 millones de parámetros, cubriendo diferentes escenarios de demanda de recursos,...
hace 9 meses
050.6K
FastVLM - 苹果公司推出的视觉语言模型

FastVLM - Modelado de lenguaje visual de Apple

FastVLM (Fast Vision Language Model) es un eficiente modelo de lenguaje visual introducido por Apple. Con el codificador visual híbrido FastViTHD como núcleo, incorpora arquitecturas convolucionales y Transformer para reducir significativamente los...
hace 9 meses
048.7K