Mini-o3 - Bytes, modelo conjunto de razonamiento visual de código abierto de la HKU

Últimos recursos sobre IAPublicado hace 7 meses Círculo de intercambio de inteligencia artificial

35.1K 00

Qué es Mini-o3

Mini-o3 es un modelo de código abierto lanzado conjuntamente por ByteDance y la Universidad de Hong Kong, centrado en la resolución de problemas complejos de búsqueda visual. El modelo tiene una potente capacidad de razonamiento interactivo multirronda para localizar objetivos mediante exploración profunda y ensayo-error. En imágenes de alta resolución, Mini-o3 puede identificar objetivos con precisión aunque sean diminutos y tengan muchas distracciones. Todo el código, los modelos y los conjuntos de datos de Mini-o3 son de código abierto, lo que facilita su reproducción y la realización de nuevas investigaciones, y supone un gran apoyo para el desarrollo del campo de la búsqueda visual.

Características de Mini-o3

Razonamiento interactivo multirrondaMini-o3: Mini-o3 es capaz de realizar inferencia profunda multironda, resolviendo problemas complejos de búsqueda visual mediante exploración paso a paso y ensayo-error, y el número de rondas de interacción puede escalarse hasta decenas de rondas para manejar tareas visuales complejas.
Modelo de razonamiento diversificadoEl modelo admite múltiples modos de inferencia, como la búsqueda en profundidad, el método de ensayo y error, el mantenimiento de objetivos, etc., y adapta con flexibilidad las estrategias de inferencia a diferentes problemas.
Tratamiento de imágenes de alta resoluciónEn imágenes de alta resolución, el modelo puede localizar e identificar con precisión el objetivo incluso si éste es pequeño y hay un gran número de objetos que interfieren, lo que demuestra una gran capacidad de búsqueda visual.
rendimiento superiorMini-o3: Mini-o3 obtiene los mejores resultados en varias pruebas de búsqueda visual, como el excelente rendimiento en VisualProbe, V* Bench, HR-Bench, MME-Realworld y otros conjuntos de datos.
código abiertoTodos los códigos, modelos y conjuntos de datos de Mini-o3 son de código abierto para facilitar la reproducción y la investigación por parte de los investigadores y hacer avanzar las tecnologías relacionadas.

Puntos fuertes de Mini-o3

Razonamiento sólidoMini-o3 : Mini-o3 está dotado de una profunda capacidad de razonamiento multirronda, que puede resolver complejos problemas de búsqueda visual mediante la exploración paso a paso y el método de ensayo y error, y puede localizar e identificar con precisión objetivos en imágenes de alta resolución con objetivos más pequeños y más interferencias.
Estrategias de razonamiento flexiblesPermite varios modos de razonamiento, como la búsqueda en profundidad, el método de ensayo y error y el mantenimiento de objetivos, lo que permite ajustar con flexibilidad la estrategia de razonamiento en función de los distintos escenarios y mejorar la eficacia y la precisión de la resolución de problemas.
Código abierto y escalabilidadTodos los códigos, modelos y conjuntos de datos de Mini-o3 son de código abierto para facilitar su reproducción y estudio por parte de los investigadores.
Conjuntos de datos y métodos de formación innovadoresMini-o3 es capaz de aprender patrones de inferencia complejos y mejorar la capacidad de generalización del modelo gracias a la creación de conjuntos de datos de búsqueda visual complejos (por ejemplo, Visual Probe Dataset) y al empleo de métodos de entrenamiento innovadores como el ajuste supervisado en frío (SFT) y el aprendizaje por refuerzo (RL).

¿Cuál es el sitio web oficial de Mini-o3?

Página web del proyecto:: https://mini-o3.github.io/
Repositorio GitHub:: https://github.com/Mini-o3/Mini-o3
Biblioteca de modelos HuggingFace:: https://huggingface.co/Mini-o3/models
Documento técnico arXiv:: https://arxiv.org/pdf/2509.07969

Personas a las que va dirigido el Mini-o3

Campo de visión por ordenador: Académicos e investigadores que trabajan en búsqueda visual, detección de objetivos, reconocimiento de imágenes, etc., para reproducir, mejorar y ampliar, y promover el desarrollo de tecnologías afines.
ingeniero de softwareIntegración de modelos Mini-o3 en el desarrollo de aplicaciones con funciones de búsqueda visual (por ejemplo, búsquedas en comercio electrónico, hogares inteligentes, sistemas de vigilancia, etc.) para mejorar las capacidades de razonamiento visual de las aplicaciones.
científico de datos: Mejorar la eficacia y la precisión del tratamiento de datos cuando se procesan y analizan datos visuales.
empresa de comercio electrónicoMejora la precisión y la experiencia de usuario de la búsqueda de productos mediante la integración del modelo Mini-o3 para ayudar a los usuarios a encontrar más rápidamente los productos que buscan.
Empresas domésticas inteligentesEn entornos domésticos inteligentes, utilice la capacidad de búsqueda visual de Mini-o3 para ayudar a los usuarios a encontrar rápidamente objetos perdidos y mejorar la inteligencia del producto.