Aprendizagem pessoal com IA
e orientação prática

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio

Introdução geral

O Infini-Megrez é uma solução de inteligência de ponta desenvolvida pela Infinigence AI, com o objetivo de obter compreensão e análise multimodais eficientes por meio de co-projeto de hardware e software. No centro do projeto está o modelo Megrez-3B, que oferece suporte à compreensão integrada de imagem, texto e áudio com alta precisão e inferência rápida. O modelo Megrez-3B tem um bom desempenho em vários benchmarks convencionais e é adequado para tarefas como compreensão de cenas e reconhecimento óptico de caracteres (OCR). O projeto fornece código de implantação completo para que os desenvolvedores possam aplicá-lo facilmente em várias plataformas.

Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio-1


 

Lista de funções

  • compreensão gráficaSigLip-400M: constrói marcadores de imagem usando o SigLip-400M e apresenta bom desempenho em benchmarks como MME, MMVet e OCRBench.
  • compreensão do idiomaMantém excelente compreensão de texto e apresenta bom desempenho em testes de benchmark, como o C-EVAL e o MMLU.
  • compreensão da falaSuporte para entrada de voz em chinês e inglês, diálogo em várias rodadas e resposta a comandos de voz.
  • inferência rápidaVelocidade de inferência de até 300% por meio de co-projeto de hardware e software.
  • Fácil de usarArquitetura LLaMA: Adota a arquitetura LLaMA clássica, facilitando a implementação em diversas plataformas para os desenvolvedores.
  • Aplicativos avançadosSolução de pesquisa na Web de pilha completa que determina automaticamente o tempo das chamadas de pesquisa para fornecer melhores resultados resumidos.

 

Usando a Ajuda

Processo de instalação

  1. armazém de clonesClone o repositório do Infini-Megrez executando o seguinte comando em um terminal:
   git clone https://github.com/infinigence/Infini-Megrez.git
  1. Instalação de dependênciasInstalação de dependências: Vá para o diretório do projeto e instale as dependências necessárias:
   cd Infini-Megrez
pip install -r requirements.txt
  1. Modelos para downloadDownload dos arquivos de modelo necessários de acordo com as diretrizes do arquivo README e coloque-os no diretório especificado.

Diretrizes para uso

  1. compreensão gráfica::
    • Coloca o arquivo de imagem no diretório especificado.
    • Execute o script de compreensão da imagem:
     python image_understanding.py --input_dir . /images
    
    • Visualize a saída com marcadores de imagem e resultados de análise.
  2. compreensão do idioma::
    • Coloca o arquivo de texto no diretório especificado.
    • Execução de scripts de compreensão do idioma:
     python text_understanding.py --input_dir . /texts
    
    • Visualize o resultado, que contém a análise de texto e os resultados de compreensão.
  3. compreensão da fala::
    • Coloca o arquivo de áudio no diretório especificado.
    • Execute o script de compreensão de fala: bash
      python speech_understanding.py --input_dir . /audios
    • Visualize a saída com a conversão de fala em texto e os resultados da análise.

Funções em destaque Procedimento de operação

  1. compreensão multimodal::
    • Coloque os arquivos de imagem, texto e áudio nos diretórios correspondentes.
    • Execute o script de compreensão multimodal:
     python multimodal_understanding.py --image_dir . /images --text_dir . /texts --audio_dir . /audios
    
    • Veja os resultados de uma análise abrangente, contendo compreensão e análise conjunta de imagens, texto e fala.
  2. Soluções WebSearch::
    • Configure o módulo WebSearch e verifique se a conexão de rede está funcionando.
    • Execute o script WebSearch: bash
      python websearch.py --query "Digite a consulta"
    • Visualize os resultados e resumos da pesquisa. O sistema determina automaticamente se a função de pesquisa precisa ser chamada e fornece resultados resumidos otimizados.

Seguindo as etapas acima, os usuários podem entender e usar completamente as funções do Infini-Megrez para obter uma compreensão e análise multimodal eficiente.

Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Megrez-3B-Omni: um modelo de compreensão multimodal do lado final que oferece suporte à compreensão e análise multimodal de texto, imagem e áudio

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil