Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1

Audio-Reasoner: um modelo de linguagem em grande escala que oferece suporte ao raciocínio profundo de áudio

Introdução geral

O Audio-Reasoner é um projeto de código aberto desenvolvido por uma equipe da Universidade de Tsinghua e hospedado no GitHub, com foco na criação de modelos de linguagem em grande escala que oferecem suporte ao raciocínio profundo em áudio. O modelo é baseado no Qwen2-Audio-Instruct, que permite o raciocínio complexo e a compreensão multimodal do conteúdo de áudio, introduzindo a tecnologia estruturada Chain-of-Thought (CoT). O projeto inclui o modelo Audio-Reasoner-7B e o próximo conjunto de dados CoTA (com 1,2 milhão de amostras de alta qualidade), que obteve uma melhoria de desempenho de 25,42% e 14,57% nos benchmarks MMAU-mini e AIR-Bench-Chat, respectivamente.Audio-Reasoner O Audio-Reasoner é uma ferramenta ideal para pesquisadores e desenvolvedores, pois oferece suporte ao processamento de som, música, voz e outros tipos de áudio, e é adequado para cenários de análise de áudio e compreensão de conteúdo.

Audio-Reasoner: um modelo de linguagem em grande escala que oferece suporte ao raciocínio profundo de áudio-1


 

Lista de funções

  • Raciocínio profundo de áudioAnálise de áudio e geração de processos de raciocínio detalhados e resultados usando o pensamento em cadeia estruturado.
  • Suporte a tarefas multimodaisCombinação de entradas de áudio e texto para tarefas de compreensão e raciocínio multimodais.
  • Processamento múltiplo de áudioReconhecimento e análise de vários tipos de áudio, como voz, música, fala etc.
  • Modelos pré-treinados de alto desempenhoFornece o modelo Audio-Reasoner-7B, que se destaca em vários testes de benchmark.
  • Conjunto de dados CoTAContém 1,2 milhão de amostras para apoiar o treinamento de inferência estruturada e o aprimoramento da capacidade dos modelos.
  • Código de raciocínio e demonstraçãoCódigo de inferência completo e exemplos de demonstração para teste e desenvolvimento do usuário
  • programa de código aberto:: No futuro, o processo de síntese de dados e o código de treinamento serão abertos para facilitar a colaboração da comunidade.

 

Usando a Ajuda

Processo de instalação

A instalação do Audio-Reasoner requer a configuração do ambiente Python e o download dos pesos do modelo. A seguir estão as etapas detalhadas para garantir que os usuários possam concluir a compilação com êxito:

1. clonagem de um repositório do GitHub

Comece clonando o projeto Audio-Reasoner localmente. Abra um terminal e execute o seguinte comando:

git clone https://github.com/xzf-thu/Audio-Reasoner.git
cd Audio-Reasoner

Isso fará o download dos arquivos do projeto localmente e no diretório do projeto.

2. crie e ative um ambiente virtual

Para evitar conflitos de dependência, recomendamos que você crie um ambiente Python separado usando o Conda:

conda create -n Audio-Reasoner python=3.10
conda activate Audio-Reasoner

Esse comando cria e ativa um ambiente baseado no Python 3.10 chamado "Audio-Reasoner".

3. instalação de pacotes de dependência

O projeto oferece requirements.txt que contém as dependências necessárias. As etapas de instalação são as seguintes:

pip install -r requirements.txt
pip install transformers==4.48.0

Atenção:transformers A versão 4.48.0 precisa ser instalada para garantir um desempenho estável do modelo. Instale as outras dependências primeiro e, em seguida, especifique a opção transformers para evitar conflitos.

4. download dos pesos do modelo

O modelo Audio-Reasoner-7B foi lançado no HuggingFace e precisa ser baixado e o caminho configurado manualmente:

  • entrevistas Sonda de áudio HuggingFace-7B, faça o download do arquivo do modelo.
  • Preencha o caminho do ponto de verificação baixado no código do last_model_checkpoint variáveis, por exemplo:
last_model_checkpoint = "/path/to/Audio-Reasoner-7B"

Como usar

Após a instalação, os usuários podem executar o Audio-Reasoner por meio de código para lidar com tarefas de áudio. Veja a seguir o guia de operação detalhado:

Início rápido: Execute o código de amostra

O projeto fornece um exemplo de início rápido para ajudar os usuários a testar a funcionalidade do modelo:

  1. Preparação de arquivos de áudio
    Por padrão, ele usa o próprio assets/test.wav ou você pode substituí-lo por seu próprio áudio no formato WAV. Certifique-se de que o caminho esteja correto.
  2. Caminhos de áudio e problemas na edição de código
    show (um ingresso) inference.py Ou simplesmente use o código a seguir para definir o caminho do áudio e fazer perguntas:

    audiopath = "assets/test.wav"
    prompt = "这段音频的节奏感和拍子是怎样的?"
    audioreasoner_gen(audiopath, prompt)
    
  3. programa de corrida
    Execute-o no terminal:

    conda activate Audio-Reasoner
    cd Audio-Reasoner
    python inference.py
    

    O modelo produzirá resultados de inferência estruturados, incluindo <THINK>(planejar, descrever, raciocinar, resumir) e <RESPONSE>(Resposta final).

Funcionalidade principal: raciocínio profundo de áudio

No coração do Audio-Reasoner está o raciocínio de áudio baseado no pensamento em cadeia, e é assim que ele funciona:

  1. Áudio de entrada e problemas
    • fazer uso de audioreasoner_gen passando o caminho do áudio e uma pergunta específica. Exemplo:
      audiopath = "your_audio.wav"
      prompt = "音频中是否有鸟叫声?"
      audioreasoner_gen(audiopath, prompt)
      
  2. Exibir o resultado da inferência
    O modelo retorna processos de raciocínio detalhados, por exemplo:

    <THINK>
    <PLANNING>: 检查音频中的声音特征,识别是否有鸟叫声。
    <CAPTION>: 音频包含自然环境音,可能有风声和动物叫声。
    <REASONING>: 分析高频声音特征,与鸟类叫声模式匹配。
    <SUMMARY>: 音频中可能存在鸟叫声。
    </THINK>
    <RESPONSE>: 是的,音频中有鸟叫声。
    
  3. Ajuste dos parâmetros de saída (opcional)
    Se for necessária uma resposta mais longa ou mais flexível, ela pode ser modificada RequestConfig Parâmetros:

    request_config = RequestConfig(max_tokens=4096, temperature=0.5, stream=True)
    

Teste local de amostras predefinidas

O projeto tem áudio de teste integrado e perguntas para verificação rápida:

conda activate Audio-Reasoner
cd Audio-Reasoner
python inference.py

Após a execução, o terminal exibe uma descrição do assets/test.wav Os resultados das análises são adequados para a primeira experiência.

Recurso: Compreensão multimodal

O Audio-Reasoner oferece suporte à análise conjunta de áudio e texto. Exemplo:

prompt = "这段音乐的情绪是否与‘悲伤’描述相符?"
audioreasoner_gen("sad_music.wav", prompt)

O modelo combinará recursos de áudio e semântica de texto para gerar resultados de inferência.

Precauções e perguntas frequentes

  • formato de áudioFormato WAV recomendado, taxa de amostragem de 16 kHz, mono.
  • lentoSe estiver lento, verifique se a GPU está ativada (requer PyTorch para CUDA).
  • O modelo não está respondendoVerifique se o caminho do modelo está correto e se as dependências estão totalmente instaladas.
  • Conflito de dependênciaSe a instalação falhar, tente criar um novo ambiente e instalar as dependências em ordem estrita.

Uso avançado

  • Lógica de raciocínio personalizada:: Modificações system Palavras-chave para ajustar o estilo de raciocínio do modelo.
  • arquivo de lote:: Will max_batch_size Defina como um valor mais alto (por exemplo, 128) para oferecer suporte à inferência simultânea de vários áudios.
  • Combinado com o conjunto de dados CoTAOs conjuntos de dados futuros do CoTA podem ser usados para treinamento adicional ou ajuste fino do modelo quando forem lançados.
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Audio-Reasoner: um modelo de linguagem em grande escala que oferece suporte ao raciocínio profundo de áudio
pt_BRPortuguês do Brasil