ThinkSound - Modelagem de geração de áudio de Ali Tongyi

Recursos mais recentes de IAPublicado há 3 meses Círculo de compartilhamento de IA

16.7K 00

O que é o ThinkSound?

O ThinkSound é o primeiro modelo de geração de áudio CoT (Chain Thinking) introduzido pela equipe de fala de Ali Tongyi. O modelo pode gerar efeitos sonoros precisamente combinados para imagens de vídeo, com base na introdução do raciocínio CoT, para resolver o problema de que a tecnologia tradicional é difícil de capturar os detalhes dinâmicos e as relações espaciais da imagem. O modelo é baseado em uma cadeia de pensamento de terceira ordem que impulsiona a geração de áudio, incluindo inferência básica de som, interação em nível de objeto e edição de comandos. O modelo é equipado com o conjunto de dados AudioCoT, que contém dados de áudio anotados com a cadeia de pensamento, e tem excelente desempenho no conjunto de dados VGGSound. O ThinkSound é compatível com a produção de filmes e televisão, desenvolvimento de jogos, publicidade e marketing, realidade virtual (VR) e realidade aumentada (AR) para aprimorar o realismo e a imersão da sincronização de áudio e vídeo.

Principais recursos do ThinkSound

Geração básica de somEfeitos sonoros básicos: Com base no conteúdo do vídeo, gere efeitos sonoros básicos que correspondam à semântica e ao tempo da tela para fornecer um fundo de áudio adequado para o vídeo, de modo que o vídeo não seja mais monótono e silencioso.
Refinamento interativo em nível de objetoEfeito sonoro: O usuário clica em um objeto específico no vídeo para refinar e otimizar o efeito sonoro do objeto específico, de modo que o efeito sonoro se ajuste ao elemento visual específico com mais precisão e aprimore a coordenação de som e imagem.
Edição de áudio orientada por comandosEle permite que os usuários editem o áudio gerado com comandos de linguagem natural, como adicionar, excluir ou modificar efeitos sonoros específicos, para atender a diferentes necessidades criativas e tornar a geração de áudio mais flexível e diversificada.

Endereço do site oficial da ThinkSound

Site do projeto:: https://thinksound-project.github.io/
Repositório do GitHub:: https://github.com/liuhuadai/ThinkSound
Biblioteca do modelo HuggingFace:: https://huggingface.co/liuhuadai/ThinkSound
Artigo técnico do arXiv:: https://arxiv.org/pdf/2506.21448

Como usar o ThinkSound

Preparação ambiental::
- Instalação do PythonVerifique se o Python está instalado em seu sistema (recomenda-se o Python 3.8 ou superior).
- Instalação de bibliotecas dependentesInstale as bibliotecas de dependência necessárias para o ThinkSound com base no seguinte comando:

pip install -r requirements.txt

- - O arquivo de dependência específico requirements.txt pode ser encontrado no repositório do GitHub.
Modelos para download::
- Download do repositório do GitHubVisite o repositório GitHub da ThinkSound (https://github.com/liuhuadai/ThinkSound) para clonar o repositório localmente:

git clone https://github.com/liuhuadai/ThinkSound.git
cd ThinkSound

- Baixar o Face HuggingFaça o download do molde diretamente da biblioteca de modelos do Hugging Face (https://huggingface.co/liuhuadai/ThinkSound).
Preparação de dados::
- Preparando o arquivo de vídeoVerifique se há um arquivo de vídeo; o ThinkSound gerará áudio com base nesse vídeo.
- Preparando o arquivo de comandoSe forem necessárias instruções em linguagem natural para editar o áudio, prepare um arquivo de texto com as instruções.
- modelo operacional::
  - Geração básica de somExecute o seguinte comando para gerar o som base:

python generate.py --video_path <path_to_your_video> --output_path <path_to_output_audio>

- - Refinamento interativo em nível de objetoSe você precisar refinar os efeitos sonoros de um objeto específico, poderá fazê-lo modificando os parâmetros relevantes no código ou usando a interface interativa (se houver suporte).
  - Edição de áudio orientada por comandosEdição de áudio: Edite o áudio com comandos de linguagem natural, com base nos seguintes comandos:

python edit.py --audio_path <path_to_generated_audio> --instruction_file <path_to_instruction_file> --output_path <path_to_edited_audio>

Exibir resultados::
- Verificação do áudio geradoNo caminho de saída especificado, localize o arquivo de áudio gerado, reproduza-o e verifique-o com base no reprodutor de áudio.
- Parâmetros de ajusteDe acordo com o efeito de áudio gerado, ajuste os parâmetros do modelo ou os comandos de entrada para obter um efeito de áudio mais satisfatório.

Principais benefícios do ThinkSound

Raciocínio de pensamento encadeado (CoT)O sistema baseia-se no raciocínio de várias etapas para imitar o processo criativo de engenheiros de som humanos, capturando com precisão detalhes dinâmicos e relações espaciais na tela, gerando áudio altamente compatível e aprimorando o realismo do som e da imagem sincronizados.
Modelagem multimodal de linguagem ampla (MLLM)Extração de informações espaço-temporais de vídeo e conteúdo semântico com base em modelos como o VideoLLaMA2, gerando cadeias de inferência estruturadas para geração de áudio semanticamente correspondente e aprimorando a coordenação de áudio e imagem.
Modelo básico de áudio unificadoBaseado na tecnologia de correspondência de fluxo condicional combinada com informações de contexto multimodal para gerar áudio de alta fidelidade, suportando combinações modais de entrada flexíveis para atender a necessidades diversificadas de geração e edição.
Refinamento interativo em nível de objetoOs efeitos sonoros são otimizados para que os usuários cliquem em objetos específicos no vídeo, de modo que os efeitos sonoros correspondam precisamente aos elementos visuais, aprimorando a coordenação e o realismo do som e da imagem, e a operação é intuitiva e conveniente.
Edição de áudio orientada por comandosSuporte a comandos de linguagem natural para edição de áudio, como adicionar, excluir ou modificar efeitos sonoros específicos, permitindo a geração de áudio altamente personalizada para atender a diferentes necessidades criativas e aumentar a liberdade de criação.
Suporte avançado a conjuntos de dadosDados AudioCoT: Equipado com o conjunto de dados AudioCoT com anotações CoT estruturadas, usado em modelos de otimização de treinamento para aprimorar a compreensão e a geração de relações audiovisuais e garantir a qualidade da geração de áudio.

Para quem é o ThinkSound

produtor de filmesEfeitos sonoros de fundo: equipes de produção de filmes e séries de TV e criadores de vídeos curtos podem gerar rapidamente efeitos sonoros de fundo realistas e efeitos sonoros específicos de cenas para aumentar a imersão do público e o apelo do conteúdo.
desenvolvedor de jogosA empresa gera efeitos sonoros dinâmicos, ambientais e interativos que aumentam a imersão e a interatividade do jogador, economizando tempo e custos de produção de som.
Equipe de publicidade e marketingAgências de publicidade e criadores de conteúdo de mídia social para gerar efeitos sonoros e trilhas sonoras envolventes para vídeos de publicidade e vídeos de mídia social para aumentar o apelo do conteúdo e o envolvimento do usuário.
Pessoal de educação e treinamentoEfeitos sonoros: plataformas de educação on-line e instrutores corporativos, gerando efeitos sonoros compatíveis com o conteúdo para vídeos educacionais e ambientes de treinamento simulados, ajudando os alunos a entender e lembrar melhor e aumentando a eficácia do treinamento.
Desenvolvedores de realidade virtual (VR) e realidade aumentada (AR)VR/AR: desenvolvedores de aplicativos de VR/AR e designers de experiências para gerar efeitos sonoros altamente compatíveis em ambientes virtuais, aprimorando a imersão e a interatividade do usuário e proporcionando experiências personalizadas.