dots.vlm1 - Small red book hi lab open source multimodal large model
dots.vlm1 es el primer gran modelo multimodal de código abierto de Little Red Book hi lab. Basado en NaViT, un codificador visual de 1.200 millones de parámetros entrenado desde cero, y DeepSeek V3 Large Language Model (LLM), cuenta con una potente percepción visual e...
LangExtract - Biblioteca Python de código abierto de Google para extraer información estructurada
LangExtract es una biblioteca Python de código abierto de Google que utiliza grandes modelos lingüísticos (LLM) para extraer información estructurada de texto no estructurado. Con comandos definidos por el usuario y un pequeño número de ejemplos, puede identificar y organizar eficazmente detalles clave, como notas clínicas de...
Qwen-Image - Tongyi Qianqian lanza el modelo básico de código abierto de Qwen-Image
Qwen-Image es un modelo base de generación de imágenes de código abierto lanzado por el equipo Alibaba Tongyi Qianqian. Con 20.000 millones de parámetros, adopta la arquitectura de transformador de difusión multimodal (MMDiT), que incorpora tres módulos: comprensión multimodal, codificación de alta resolución y modelado de difusión.Qwen-Image...
Gemini 2.5 Deep Think - Modelo de inferencia de inteligencia artificial de Google
Gemini 2.5 Deep Think es un modelo de razonamiento de IA de Google diseñado para resolver tareas complejas. Es una variante del modelo que ganó la medalla de oro en la Olimpiada Internacional de Matemáticas (IMO) 2025, y está diseñado para resolver tareas complejas mediante Paralelo...
MindLink - Gran modelo de razonamiento de código abierto de KunlunWei
MindLink es un gran modelo de razonamiento de código abierto lanzado por Kunlun World Wide Web. Con el mecanismo de razonamiento adaptativo , de acuerdo con la complejidad de la tarea de conmutación flexible modo de razonamiento , las tareas simples generados rápidamente , tareas complejas razonamiento en profundidad , teniendo en cuenta la eficiencia y la precisión . Paradigma de razonamiento basado en planes para eliminar la etiqueta "pensar" , reducir ...
MirageLSD - Decart AI lanza el primer modelo de generación de vídeo de IA en tiempo real
MirageLSD es el primer modelo de vídeo de IA de difusión en tiempo real del mundo, creado por el equipo de IA de Decart, que permite la generación ilimitada de vídeo en tiempo real con una latencia de tan sólo 40 milisegundos y una salida fluida a 24 fotogramas por segundo.
k2 - Dark Side of the Moon El último modelo base de arquitectura MoE de Kimi
k2 es un modelo base de arquitectura MoE con un código magnífico y capacidades de Agente de Moonshot AI, con 1T de parámetros totales y 32B de parámetros de activación. en las pruebas de rendimiento de referencia en las categorías principales de Razonamiento de Conocimientos Generales, Programación, Matemáticas y Agente, el modelo k2...
Grok 4: el último gran modelo de la xAI de Musk
Grok 4 es el último gran modelo de IA de xAI. Grok 4 multiplica por 10 la capacidad de razonamiento de su predecesor. La capacidad de razonamiento superior del modelo le permite obtener una puntuación casi perfecta en exámenes difíciles como el SAT y el GRE, y supera a otros modelos de vanguardia en una serie de pruebas de referencia....
GenFlow Super Hitchhiker - Un agente universal de IA de la biblioteca de literatura Baidu
GenFlow Super Hitchhiker es un agente de IA de propósito general lanzado por la Biblioteca de Literatura Baidu. Los usuarios sólo tienen que introducir comandos en lenguaje natural y pueden desensamblar tareas de forma independiente, llamar a los 1.400 millones de bibliotecas de documentos y recursos en línea de la Biblioteca de Literatura Baidu y generar PPT, informes, gráficos, pósters y otros contenidos modales completos de forma extremadamente rápida.
Step-Audio-AQAA - Modelo de gran lenguaje sonoro integral de StepFun
Step-Audio-AQAA es un modelo de lenguaje de audio integral a gran escala para tareas de consulta y respuesta de audio (AQAA) del equipo StepFun. Puede procesar directamente la entrada de audio para generar respuestas de voz naturales y precisas sin depender del reconocimiento automático de voz (A...