MiMo-Embodied: el modelo pedestal de inteligencia incorporada multidominio de código abierto de Xiaomi
Últimos recursos sobre IAPublicado hace 3 semanas Círculo de intercambio de inteligencia artificial 13.9K 00
¿Qué es MiMo-Embodied?
MiMo-Embodied es el primer modelo base del mundo basado en la inteligencia artificial incorporada y la conducción autónoma, desarrollado por el Grupo Xiaomi. Resuelve el problema de la migración de conocimientos entre la IA incorporada y la conducción autónoma, y logra un modelado unificado de tareas en los dos dominios. Soporta simultáneamente las tres tareas principales de la IA incorporada (razonamiento, planificación de tareas y comprensión espacial) y las tres tareas clave de la conducción autónoma (detección del entorno, predicción del estado y planificación de la conducción) para formar un soporte de inteligencia de escena completo. La arquitectura unificada integra tareas de funcionamiento en interiores (por ejemplo, navegación del robot, interacción con objetos) y de conducción en exteriores (por ejemplo, percepción del entorno, planificación de la trayectoria), rompiendo la limitación que suponen los modelos de lenguaje visual (VLM) tradicionales, limitados a un único dominio.

Características de MiMo-Embodied
- Generalizabilidad intersectorialMiMo-Embodied, el primer modelo que integra la conducción autónoma y la inteligencia incorporada, permite la percepción multimodal, el razonamiento y la toma de decisiones en entornos dinámicos para una amplia gama de escenarios complejos.
- Capacidades de interacción multimodalPermite la entrada de imágenes, vídeo y texto, y puede gestionar tareas multimodales como preguntas y respuestas visuales, seguimiento de órdenes, etc., proporcionando una experiencia de interacción persona-ordenador más natural.
- Razonamiento sólidoEl modelo, perfeccionado mediante el razonamiento encadenado, es capaz de realizar razonamientos lógicos complejos y planificar tareas en varios pasos, lo que resulta adecuado para la ejecución de tareas en la inteligencia incorporada y la planificación de trayectorias en la conducción autónoma.
- Detección medioambiental de alta precisiónEn escenarios de conducción autónoma, MiMo-Embodied detecta con precisión la escena del tráfico, identifica los elementos clave y predice el comportamiento dinámico para garantizar la seguridad de la conducción.
- Comprensión espacial y navegaciónEl modelo posee una excelente comprensión espacial para la navegación en interiores, la localización de objetos y el razonamiento de relaciones espaciales, y es adecuado para la planificación de trayectorias en el funcionamiento de robots y la conducción autónoma.
- Optimización del aprendizaje: Emplear el ajuste fino del aprendizaje por refuerzo para mejorar la calidad y fiabilidad de las decisiones del modelo en tareas complejas y garantizar un despliegue eficaz en entornos reales.
- Código abierto y escalabilidadMiMo-Embodied es de código abierto, con el código y los modelos disponibles en Hugging Face, lo que proporciona a los investigadores y desarrolladores potentes herramientas de personalización y ampliación.
Puntos fuertes de MiMo-Embodied
- Cobertura de capacidades entre dominios: Integrar tareas de manipulación en interiores (por ejemplo, navegación robótica, interacción con objetos) y de conducción en exteriores (por ejemplo, percepción del entorno, planificación de trayectorias) mediante una arquitectura unificada, rompiendo la limitación de los modelos de lenguaje visual (VLM) tradicionales a un único dominio.
- Potenciación de sinergias bidireccionalesLa sinergia en la transferencia de conocimientos entre la capacidad de interacción en interiores y la capacidad de toma de decisiones en carretera queda demostrada, lo que aporta nuevas ideas para la integración inteligente entre escenarios.
- La optimización de toda la cadena es fiableEl objetivo es mejorar la fiabilidad del modelo para su despliegue en entornos reales mediante una estrategia de entrenamiento progresivo en cuatro etapas que incluye el aprendizaje de la capacidad de autoconducción, la mejora del razonamiento de la cadena de pensamiento (CoT) y el refuerzo fino del aprendizaje por refuerzo (RL).
- interacción multimodalPermite múltiples entradas, visuales y verbales, y es capaz de gestionar tareas multimodales complejas, como preguntas y respuestas visuales, seguimiento de instrucciones y comprensión de escenas.
- Optimización del aprendizajeEl perfeccionamiento mediante el aprendizaje por refuerzo para mejorar la capacidad de decisión del modelo y la fiabilidad de la ejecución de tareas en entornos complejos.
- Gran capacidad de razonamientoCapacidad de razonamiento lógico y planificación de tareas en varios pasos para la ejecución de tareas complejas y la toma de decisiones en entornos dinámicos.
- Comprensión espacial: destaca en tareas de comprensión de relaciones espaciales, localización de objetos y navegación, y respalda operaciones de precisión en robótica y sistemas de conducción autónoma.
¿Cuál es la página web oficial de MiMo-Embodied?
- Repositorio Github:: https://github.com/XiaomiMiMo/MiMo-Embodied
- Biblioteca de modelos HuggingFace:: https://huggingface.co/XiaomiMiMo/MiMo-Embodied-7B
- Documento técnico arXiv:: https://arxiv.org/pdf/2511.16518
¿Para quién es MiMo-Embodied?
- Desarrolladores de tecnologías de conducción autónomaEl sistema de conducción autónoma: puede utilizarse para desarrollar y optimizar sistemas de conducción autónoma, prestando apoyo a funciones básicas como el conocimiento del entorno y la planificación de decisiones.
- Ingeniero en robótica: Adecuado para tareas de navegación, manipulación e interacción de robots, facilitando las acciones de robots autónomos en entornos complejos.
- investigador en inteligencia artificialcomo modelo de código abierto para proporcionar una plataforma experimental para el estudio de la interacción multimodal, la inteligencia incorporada y la conducción autónoma.
- Desarrollador de sistemas de transporte inteligentesEl sistema de tráfico: puede utilizarse en la supervisión del tráfico, el despacho inteligente y otros escenarios para mejorar la inteligencia del sistema de tráfico.
- Desarrollador de automatización industrial y del hogar inteligenteEl sistema de automatización industrial y doméstica inteligente es compatible con la planificación de tareas complejas y la colaboración entre personas y máquinas.
- Universidades e instituciones de investigación: Proporcionar recursos de código abierto para la enseñanza y la investigación en campos afines, y promover los intercambios académicos y el desarrollo tecnológico.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




