Molmo 2 - Familia de modelos de comprensión multimodal de imágenes de vídeo de código abierto Ai2

Últimos recursos sobre IAPublicado hace 4 meses Círculo de intercambio de inteligencia artificial

37.4K 00

¿Qué es Molmo 2?

Molmo 2 es un modelo multimodal de código abierto publicado por el Allen Institute for AI (Ai2) para mejorar la comprensión de vídeos e imágenes múltiples. Se incluyen tres variantes, Molmo 2 (8B), Molmo 2 (4B) y Molmo 2-O (7B), adecuadas para diferentes escenarios y requisitos. De ellas, Molmo 2 (8B) obtiene los mejores resultados en localización de vídeo y preguntas y respuestas, Molmo 2 (4B) optimiza la eficiencia, y Molmo 2-O (7B) proporciona un flujo de modelo de extremo a extremo totalmente abierto.Molmo 2 supera a su modelo predecesor en una serie de pruebas de referencia clave, y supera a rivales fuertes como Gemini 3 Pro en el seguimiento de vídeo. Molmo 2 también sobresale en la cantidad de datos de entrenamiento, ya que sólo utiliza 9,19 millones de vídeos, muchos menos que otros modelos, lo que demuestra su capacidad para utilizar los datos de forma eficiente.Molmo 2 admite entradas de una y varias imágenes, así como videoclips de distinta duración, y es capaz de realizar una amplia gama de tareas, como localización de vídeos, seguimiento y preguntas y respuestas.

Características de Molmo 2

Potente comprensión de vídeo: Supera a su modelo predecesor, así como a varios modelos líderes del sector, en tareas de localización de vídeo, seguimiento y preguntas y respuestas, tales como Géminis 3 Pro.
Soporte para varias imágenes y una sola imagenNo sólo admite entradas de una sola imagen, sino también entradas de varias imágenes y clips de vídeo de distintas longitudes, por lo que es adecuado para una amplia gama de situaciones complejas.
Utilización eficaz de los datosLa cantidad de datos de entrenamiento es de sólo 9,19 millones de vídeos, mucho menos que otros modelos como PerceptionLM de Meta (72,5 millones de vídeos), lo que demuestra un entrenamiento eficiente.
Variantes de modelos flexiblesMolmo 2: incluye las variantes Molmo 2 (8B), Molmo 2 (4B) y Molmo 2-O (7B), cada una de ellas adaptada a diferentes necesidades de rendimiento y eficiencia.
Apertura y escalabilidadEl sistema de modelización: ofrece un proceso de modelización de extremo a extremo totalmente abierto, adecuado para los investigadores que necesitan un control total de su pila de modelos, y estará disponible a través de una API en el futuro.
Escenarios de aplicación enriquecidosLa tecnología de subtítulos de vídeo es una de las más avanzadas del mercado: puede utilizarse en diversos campos, como el análisis de vídeo, la visión robótica, la tecnología de asistencia, etc., y admite funciones como el resumen de vídeo, el seguimiento de objetos y la generación de subtítulos densos.
fácil de usarLos usuarios pueden obtener más información sobre Ai2 en la página Ai2 Parque infantil para hacerse una idea rápida de las capacidades del modelo, cargue vídeos o imágenes y ejecute varias tareas para ver el proceso de razonamiento del modelo.

Principales ventajas de Molmo 2

Excelente comprensión del vídeo: Supera a varios modelos líderes del sector, como el Gemini 3 Pro, en tareas como localización de vídeo, seguimiento y preguntas y respuestas, lo que lo convierte en el líder en comprensión de vídeo.
Formación y utilización de datos eficientesEl modelo se entrenó utilizando sólo 9,19 millones de vídeos, muchos menos que otros modelos (por ejemplo, PerceptionLM de Meta utiliza 72,5 millones de vídeos), lo que demuestra la eficiencia del entrenamiento y el aprovechamiento de los datos.
Soporte de entrada multimodalAdmite entradas de una sola imagen, varias imágenes y videoclips de distintas longitudes, lo que permite manejar con flexibilidad una gran variedad de escenas complejas y satisfacer necesidades diversificadas.
Variantes de modelos flexiblesLas variantes Molmo 2 (8B), Molmo 2 (4B) y Molmo 2-O (7B) están disponibles para satisfacer las distintas necesidades de alto rendimiento, alta eficiencia y control totalmente abierto, respectivamente.
Apertura y escalabilidad: Construido sobre Qwen 3 y Olmo, proporciona un proceso de modelización de extremo a extremo totalmente abierto para facilitar su personalización y ampliación por parte de los investigadores.

Cuál es la web oficial de Molmo 2

Página web del proyecto:: https://allenai.org/blog/molmo2
Repositorio GitHub:: https://github.com/allenai/molmo2
Biblioteca de modelos HuggingFace:: https://huggingface.co/collections/allenai/molmo2
Documentos técnicos:: https://www.datocms-assets.com/64837/1765901660-molmo_v2_2026-techreport-3.pdf

Para quién es Molmo 2

investigadorLos estudiosos e investigadores de la IA multimodal pueden llevar a cabo experimentos y exploraciones en comprensión de vídeo, análisis de imágenes y razonamiento multimodal con Molmo 2, haciendo avanzar la investigación en campos relacionados.
desarrolladoresLos desarrolladores de software que deseen integrar funciones avanzadas de procesamiento de vídeo e imágenes en sus proyectos pueden utilizar la API y el código fuente abierto de Molmo 2 para implementar rápidamente análisis de vídeo, seguimiento de objetos y mucho más.
educadorEn el campo de la educación en IA, Molmo 2 puede utilizarse como herramienta didáctica para ayudar a los estudiantes a comprender y practicar la aplicación de modelos multimodales para mejorar la enseñanza y el aprendizaje.
experto del sectorMolmo 2: los profesionales de los campos de la vigilancia del tráfico, la automatización industrial, la imagen médica, etc., pueden utilizar las potentes funciones de Molmo 2 para mejorar la eficacia y la calidad de su trabajo y la toma de decisiones.
entusiasta de la tecnologíaLos interesados en la IA y las tecnologías multimodales pueden aprender y practicar con los recursos de código abierto de Molmo 2 para explorar las posibilidades de la tecnología.