Introdução geral
O FoleyCrafter é um projeto de código-fonte aberto desenvolvido pelo OpenMMLab para gerar efeitos sonoros vívidos e sincronizados para vídeos silenciosos. O projeto usa técnicas avançadas de inteligência artificial para analisar o conteúdo do vídeo e gerar efeitos sonoros semanticamente relevantes e sincronizados com o tempo para aprimorar o realismo e a profundidade emocional do vídeo. O objetivo do FoleyCrafter é fornecer soluções de som de alta qualidade para filmes, jogos e outros campos para aprimorar a experiência audiovisual do público.
Síntese automatizada de fluxos de trabalho de locução: https://openart.ai/workflows/t8star/foleycrafter/wZyBSeaa2lvgU3c3NlcH
Lista de funções
- Geração de vídeo para áudioGeração de efeitos sonoros semanticamente relevantes e sincronizados com base no conteúdo do vídeo.
- Geração de som de alerta de textoGeração de efeitos sonoros específicos de cenas a partir de dicas de texto.
- alinhamento de tempoEfeitos sonoros: Certifique-se de que os efeitos sonoros gerados estejam sincronizados com o tempo do conteúdo do vídeo.
- Interface do GradioInterface de usuário: fornece uma interface amigável para operações de geração de som.
- código abertoBase de código: Uma base de código completa é fornecida para facilitar o desenvolvimento secundário e a personalização pelos desenvolvedores.
Usando a Ajuda
Processo de instalação
- Preparação do ambiente::
- Instale o ambiente Conda:
conda env create -f requirements/environment.yaml
- Ativar o ambiente:
conda activate foleycrafter
- Instale o Git LFS:
conda install git-lfs
e, em seguida, executegit lfs install
- Instale o ambiente Conda:
- Baixar pontos de controle::
- estar em movimento
inference.py
Faça o download automático dos pontos de controle ou faça o download manual e coloque-os nopontos de controle
Catálogo.
- estar em movimento
- Iniciando a interface do Gradio::
- estar em movimento
python app.py --share
Inicie a interface do Gradio.
- estar em movimento
Processo de uso
- Geração de vídeo para áudio::
- estar em movimento
python inference.py --save_dir=output/sora/
Salve o arquivo de áudio gerado no diretório especificado.
- estar em movimento
- alinhamento de tempo::
- estar em movimento
python inference.py --temporal_align --input=input/avsync --save_dir=output/avsync/
Os efeitos sonoros gerados são sincronizados com o tempo do conteúdo do vídeo.
- estar em movimento
- Geração de som de alerta de texto::
- estar em movimento
python inference.py --input=input/PromptControl/case1/ --seed=10201304011203481429 --prompt='noisy, people talking' --save_dir=output/ PromptControl/case1_prompt/
Os efeitos sonoros são gerados para cenas específicas com base em dicas textuais.
- estar em movimento
Etapas detalhadas
- Preparação do ambiente::
- Faça o download e instale o Conda: https://docs.conda.io/en/latest/miniconda.html
- Clone o código do projeto:
git clone https://github.com/open-mmlab/foleycrafter.git
- Vá para o catálogo de projetos:
cd foleycrafter
- Siga as etapas acima para instalar as dependências e configurar o ambiente.
- Baixar pontos de controle::
- Faça o download e coloque o arquivo de ponto de verificação, certificando-se de que a estrutura do diretório seja a seguinte:
└── pontos de controle ├── semântica ├─── semantic_adapter.bin ├─── vocoder │ ├─── vocoder.pt │ ├─── config.json Temporal_adapter.ckpt │ └── timestamp_detector.pth.tar
- Iniciando a interface do Gradio::
- estar em movimento
python app.py --share
Inicia a interface do Gradio, que pode ser acessada pelo usuário por meio de um navegador.
- estar em movimento
- Gerar efeitos sonoros::
- Selecione diferentes modos de geração (vídeo para áudio, alinhamento de tempo, sinalização de texto) e execute os comandos correspondentes para gerar arquivos de som de acordo com suas necessidades.
Com as etapas acima, os usuários podem começar a usar facilmente o FoleyCrafter para adicionar efeitos sonoros vívidos e sincronizados a vídeos silenciosos para aprimorar a experiência audiovisual. /n