Megrez-3B-Omni: un modelo de comprensión multimodal de extremo a extremo que soporta la comprensión y el análisis multimodal de texto, imagen y audio.

堆友AI

Introducción general

Infini-Megrez es una solución de inteligencia de vanguardia desarrollada por Infinigence AI con el objetivo de lograr una comprensión y un análisis multimodales eficientes mediante el codiseño de hardware y software. El núcleo del proyecto es el modelo Megrez-3B, que permite la comprensión integrada de imágenes, texto y audio con gran precisión y rapidez de inferencia. El modelo Megrez-3B obtiene buenos resultados en una serie de pruebas de referencia y es adecuado para tareas como la comprensión de escenas y el reconocimiento óptico de caracteres (OCR). El proyecto proporciona un código de despliegue completo para que los desarrolladores puedan aplicarlo fácilmente en diversas plataformas.

Megrez-3B-Omni:端侧多模态理解模型,支持文本、图像、音频多模态理解和分析

 

Lista de funciones

  • comprensión gráficaConstruye marcadores de imagen utilizando SigLip-400M y obtiene buenos resultados en pruebas de referencia como MME, MMVet y OCRBench.
  • comprensión lingüística: Mantiene una excelente comprensión de textos y obtiene buenos resultados en pruebas de referencia como C-EVAL y MMLU.
  • comprensión verbal: Admite entrada de voz en chino e inglés, diálogo multirronda y respuesta a comandos de voz.
  • inferencia rápidaLograr un aumento de la velocidad de inferencia de hasta 300% mediante el codiseño de hardware y software.
  • fácil de usarAdopta la arquitectura clásica LLaMA, lo que facilita a los desarrolladores la implantación en diversas plataformas.
  • Aplicaciones sofisticadas: Proporciona una solución WebSearch de pila completa que determina automáticamente el momento de las llamadas de búsqueda para ofrecer mejores resultados resumidos.

 

Utilizar la ayuda

Proceso de instalación

  1. almacén de clonesClone el repositorio Infini-Megrez ejecutando el siguiente comando en un terminal:
   git clone https://github.com/infinigence/Infini-Megrez.git
  1. Instalación de dependenciasVaya al directorio del proyecto e instale las dependencias necesarias:
   cd Infini-Megrez
pip install -r requirements.txt
  1. Descargar modelosDescarga los archivos de modelo necesarios siguiendo las directrices del archivo README y colócalos en el directorio especificado.

Normas de uso

  1. comprensión gráfica::
    • Coloca el archivo de imagen en el directorio especificado.
    • Ejecute el script de comprensión de imágenes:
     python image_understanding.py --input_dir ./images
    
    • Visualice la salida con los marcadores de imagen y los resultados del análisis.
  2. comprensión lingüística::
    • Coloca el archivo de texto en el directorio especificado.
    • Ejecutar scripts de comprensión lingüística:
     python text_understanding.py --input_dir ./texts
    
    • Visualice la salida, que contiene los resultados del análisis y la comprensión del texto.
  3. comprensión verbal::
    • Coloca el archivo de audio en el directorio especificado.
    • Ejecute el script de comprensión del habla: bash
      python speech_understanding.py --input_dir ./audios
    • Visualice la salida con los resultados del análisis y la conversión de voz a texto.

Funciones destacadas Procedimiento de funcionamiento

  1. comprensión multimodal::
    • Coloca los archivos de imagen, texto y audio en los directorios correspondientes.
    • Ejecute el script de comprensión multimodal:
     python multimodal_understanding.py --image_dir ./images --text_dir ./texts --audio_dir ./audios
    
    • Vea los resultados de un análisis exhaustivo, que contiene la comprensión y el análisis conjuntos de imágenes, texto y voz.
  2. Soluciones de búsqueda web::
    • Configure el módulo WebSearch y asegúrese de que la conexión de red funciona.
    • Ejecute el script WebSearch: bash
      python websearch.py --query "输入查询内容"
    • Visualice los resultados y resúmenes de la búsqueda. El sistema determina automáticamente si es necesario invocar la función de búsqueda y ofrece resultados resumidos optimizados.

Siguiendo los pasos anteriores, los usuarios pueden comprender y utilizar plenamente las funciones de Infini-Megrez para lograr una comprensión y un análisis multimodales eficaces.

© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...