Introdução geral
O Infini-Megrez é uma solução de inteligência de ponta desenvolvida pela Infinigence AI, com o objetivo de obter compreensão e análise multimodais eficientes por meio de co-projeto de hardware e software. No centro do projeto está o modelo Megrez-3B, que oferece suporte à compreensão integrada de imagem, texto e áudio com alta precisão e inferência rápida. O modelo Megrez-3B tem um bom desempenho em vários benchmarks convencionais e é adequado para tarefas como compreensão de cenas e reconhecimento óptico de caracteres (OCR). O projeto fornece código de implantação completo para que os desenvolvedores possam aplicá-lo facilmente em várias plataformas.
Lista de funções
- compreensão gráficaSigLip-400M: constrói marcadores de imagem usando o SigLip-400M e apresenta bom desempenho em benchmarks como MME, MMVet e OCRBench.
- compreensão do idiomaMantém excelente compreensão de texto e apresenta bom desempenho em testes de benchmark, como o C-EVAL e o MMLU.
- compreensão da falaSuporte para entrada de voz em chinês e inglês, diálogo em várias rodadas e resposta a comandos de voz.
- inferência rápidaVelocidade de inferência de até 300% por meio de co-projeto de hardware e software.
- Fácil de usarArquitetura LLaMA: Adota a arquitetura LLaMA clássica, facilitando a implementação em diversas plataformas para os desenvolvedores.
- Aplicativos avançadosSolução de pesquisa na Web de pilha completa que determina automaticamente o tempo das chamadas de pesquisa para fornecer melhores resultados resumidos.
Usando a Ajuda
Processo de instalação
- armazém de clonesClone o repositório do Infini-Megrez executando o seguinte comando em um terminal:
git clone https://github.com/infinigence/Infini-Megrez.git
- Instalação de dependênciasInstalação de dependências: Vá para o diretório do projeto e instale as dependências necessárias:
cd Infini-Megrez
pip install -r requirements.txt
- Modelos para downloadDownload dos arquivos de modelo necessários de acordo com as diretrizes do arquivo README e coloque-os no diretório especificado.
Diretrizes para uso
- compreensão gráfica::
- Coloca o arquivo de imagem no diretório especificado.
- Execute o script de compreensão da imagem:
python image_understanding.py --input_dir . /images
- Visualize a saída com marcadores de imagem e resultados de análise.
- compreensão do idioma::
- Coloca o arquivo de texto no diretório especificado.
- Execução de scripts de compreensão do idioma:
python text_understanding.py --input_dir . /texts
- Visualize o resultado, que contém a análise de texto e os resultados de compreensão.
- compreensão da fala::
- Coloca o arquivo de áudio no diretório especificado.
- Execute o script de compreensão de fala:
bash
python speech_understanding.py --input_dir . /audios
- Visualize a saída com a conversão de fala em texto e os resultados da análise.
Funções em destaque Procedimento de operação
- compreensão multimodal::
- Coloque os arquivos de imagem, texto e áudio nos diretórios correspondentes.
- Execute o script de compreensão multimodal:
python multimodal_understanding.py --image_dir . /images --text_dir . /texts --audio_dir . /audios
- Veja os resultados de uma análise abrangente, contendo compreensão e análise conjunta de imagens, texto e fala.
- Soluções WebSearch::
- Configure o módulo WebSearch e verifique se a conexão de rede está funcionando.
- Execute o script WebSearch:
bash
python websearch.py --query "Digite a consulta"
- Visualize os resultados e resumos da pesquisa. O sistema determina automaticamente se a função de pesquisa precisa ser chamada e fornece resultados resumidos otimizados.
Seguindo as etapas acima, os usuários podem entender e usar completamente as funções do Infini-Megrez para obter uma compreensão e análise multimodal eficiente.