Qwen3-Max-Preview - Modelo emblemático de gran lenguaje de Tongyi Qianqian
Qwen3-Max-Preview es el último gran modelo lingüístico insignia lanzado por Tongyi Qianwen. Es el modelo con el mayor número de parámetros de la familia Qwen3, con un tamaño de parámetros de más de 1 billón. El modelo presenta mejoras significativas en inferencia, seguimiento de instrucciones, soporte multilingüe y cobertura de conocimiento de cola larga...
OneCAT - Modelo multimodal de código abierto para Meituan y la Universidad Jiaotong de Shanghai
OneCAT es un nuevo modelo multimodal unificado lanzado por Meituan junto con la Universidad Jiaotong de Shanghai, que adopta una arquitectura de descodificador puro que integra a la perfección la comprensión multimodal, la generación de texto a imagen y las funciones de edición de imágenes. El modelo abandona el diseño de los modelos multimodales tradicionales que dependen de codificadores y desambiguadores visuales externos mediante...
Claudable - Constructor de aplicaciones web de IA de código abierto, código generado en lenguaje natural
Claudable es un creador de aplicaciones web de código abierto basado en Next.js que combina las capacidades avanzadas de agente de IA de Claude Code y Cursor CLI con la experiencia de creación de aplicaciones sencilla e intuitiva de Lovable...
FineVision - Hugging Face lanza un conjunto de datos de código abierto sobre el lenguaje visual
FineVision es el conjunto de datos de lenguaje visual de código abierto de Hugging Face para el entrenamiento de modelos avanzados de lenguaje visual. Contiene 17,3 millones de imágenes, 24,3 millones de muestras, 88,9 millones de rondas de diálogo y 9.500 millones de tokens de respuesta. El conjunto de datos...
HunyuanWorld-Voyager - Modelo mundial de itinerancia ultralarga de código abierto de Tencent
HunyuanWorld-Voyager (abreviado Hunyuan Voyager) es el primer modelo de mundo itinerante ultralargo de la industria lanzado por Tencent que admite la reconstrucción nativa en 3D. Se trata de un novedoso marco de difusión de vídeo que genera secuencias de nubes de puntos 3D de trayectorias de cámara definidas por el usuario a partir de una sola imagen,...
Hunyuan-MT-7B - Modelo de traducción ligera de código abierto Tencent Mixed Meta
Hunyuan-MT-7B es un modelo de traducción ligero introducido por el Mixed Meta Team de Tencent, con 7.000 millones de referencias, que admite la traducción mutua de 33 idiomas y 5 lenguas/dialectos del chino popular, incluidos el cantonés, el uigur y el tibetano. En el concurso WMT2025 de la Asociación Internacional de Lingüística Computacional (ACL)...
Step-Audio 2 mini - Macromodelado del habla de código abierto Step-Star
Step-Audio 2 mini es un macromodelo del habla integral de código abierto de Step-Audio. Rompe con la estructura tradicional del modelo del habla y adopta una verdadera arquitectura multimodal de extremo a extremo, que transforma directamente la entrada de audio sin procesar en salida de respuesta del habla, con menor latencia, y comprende la información paralingüística y las señales no vocales.
MobileCLIP2: el eficiente modelo multimodal de código abierto de Apple
MobileCLIP2 es una versión mejorada de MobileCLIP, un eficiente modelo multimodal de extremo introducido por investigadores de Apple. Optimizado para el entrenamiento de refuerzo multimodal, integra el modelo de profesor CLIP mediante el entrenamiento de un mejor rendimiento en el conjunto de datos DFN y la mejora de la generat...
InternVL3.5 - Modelos grandes multimodales de código abierto de Shanghai AI Lab
InternVL3.5 (Shusheng-Wanxiang 3.5) es un gran modelo multimodal de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, el modelo está totalmente actualizado en términos de capacidad general, capacidad de razonamiento y eficiencia de despliegue, proporcionando nueve tamaños de versiones de 1.000 millones a 241.000 millones de parámetros, cubriendo diferentes escenarios de demanda de recursos,...
FastVLM - Modelado de lenguaje visual de Apple
FastVLM (Fast Vision Language Model) es un eficiente modelo de lenguaje visual introducido por Apple. Con el codificador visual híbrido FastViTHD como núcleo, incorpora arquitecturas convolucionales y Transformer para reducir significativamente los...









