Introdução geral
O TRV é uma ferramenta de código aberto, hospedada no GitHub, projetada para ajudar os usuários a transformar rapidamente slides e notas de aula em vídeos com narração. Ele gera automaticamente conteúdo de áudio e vídeo a partir de arquivos de apresentação recebidos por meio de operações simples de linha de comando e é adequado para educadores, criadores de conteúdo ou desenvolvedores que precisam criar rapidamente vídeos de apresentação. Desenvolvido pela equipe do transformrs, o projeto é compatível com uma ampla gama de modelos e formatos de geração de áudio e está disponível para os usuários por meio de implantação local ou serviços on-line. O TRV foi projetado tendo em mente a eficiência e a flexibilidade, e a natureza de código aberto do projeto dá aos entusiastas da tecnologia a liberdade de personalizar e ampliar a funcionalidade.
Lista de funções
- Deslize para o vídeoConverta arquivos de slides no formato Typst em vídeo com narração.
- Geração automática de áudioGeração de fala baseada em texto com suporte a vários modelos e estilos de fala.
- Suporte a vários formatosO áudio de saída é compatível com WAV e outros formatos, e o vídeo é compatível com MP4.
- Compatibilidade com vários provedores de serviçosConecta-se a serviços como OpenAI, DeepInfra e outros para gerar áudio.
- Configuração personalizadaSuporte para ajuste de resolução, estilo de voz e outros parâmetros.
- Suporte ao DockerImagens do Docker são fornecidas para rápida implementação local.
- Adaptação vertical e horizontal da telaSuporte para geração de vídeos verticais adequados para plataformas como o YouTube Shorts.
Usando a Ajuda
Processo de instalação
O TRV é uma ferramenta de linha de comando que requer algumas habilidades técnicas para ser instalada e usada. Veja a seguir as etapas detalhadas de instalação:
1. condições prévias
- Requisitos do sistemaSuporte para macOS, Linux ou Windows (é necessário um ambiente de linha de comando).
- Ferramentas dependentes::
- Git: usado para clonar repositórios de código.
- Docker (opcional): para implementação em contêineres.
- Python (opcional): se você instalar algumas das dependências manualmente.
- conexão de redeAlgumas funções exigem acesso a serviços on-line.
2. obter o código-fonte via GitHub
- Abra um terminal e digite o seguinte comando para clonar o repositório:
git clone https://github.com/transformrs/trv.git
- Vá para o catálogo de projetos:
cd trv
3. seleção do método de instalação
- Maneira 1: usar o Docker (recomendado)
- Certifique-se de que o Docker esteja instalado e em execução.
- Crie a imagem do Docker:
docker build --rm -t trv .
- Execute o contêiner:
docker run -it --rm trv
- O comando TRV está disponível dentro do contêiner.
- Modo 2: instalação manual (ambiente local)
- Instale as dependências necessárias (por exemplo, FFmpeg, Typst, etc., dependendo do sistema).
- Configure as variáveis de ambiente e as ferramentas de acordo com as instruções na página do GitHub.
- Execute o executável do TRV diretamente (é necessária a compilação ou o download de uma versão pré-construída).
4. configurar a chave de serviço (opcional)
Se estiver usando o DeepInfra ou outro serviço on-line para gerar áudio, será necessário configurar a chave da API:
- Obtenha a chave (por exemplo, DeepInfra's
DEEPINFRA_KEY
). - Defina as variáveis de ambiente no terminal:
export DEEPINFRA_KEY="Sua chave"
Uso
A função principal do TRV é converter arquivos de slides em vídeo, e o procedimento de operação específico é o seguinte:
1. preparação de documentos de entrada
- Crie um arquivo de demonstração no formato Typst (por exemplo
presentation.typ
), contendo o conteúdo dos slides e as anotações da apresentação. - Exemplo de conteúdo de arquivo:
#slide[
#title[Bem-vindo à TRV]
Esta é uma demonstração simples.
]
#notes[Esta é uma demonstração simples, bem-vindo para experimentar os recursos de automação da TRV].
2. geração de vídeo
- comando básico::
trv --input=presentation.typ --output=out.mp4
Isso gerará um arquivo de vídeo com a configuração padrão out.mp4
.
- Uso de serviços on-line::
trv --input=presentation.typ --provider=openai-compatible(kokoros.transformrs.org) --model=tts-1 --voice=bm_lewis --audio-format=wav
Use o serviço Kokoros para gerar áudio WAV e sintetizar vídeo.
- Usando o DeepInfra::
trv --input=presentation.typ --model=Zyphra/Zonos-v0.1-hybrid --voice=american_male
Você precisa se certificar de que definiu o DEEPINFRA_KEY
.
3. configurações personalizadas
- Ajuste da resolução::
Para vídeos de tela vertical (por exemplo, curtas do YouTube), isso pode ser definido:
trv --input=presentation.typ --page=1080x1920
- Selecionar estilo de voz::
indicar com clareza e certeza--voz
parâmetros, comohomem_americano
talvezbm_lewis
Depende do suporte de serviço.
4. visualização da saída
- O vídeo gerado é salvo por padrão na pasta
_out/out.mp4
(Os caminhos estão disponíveis em--output
(Designação). - Verifique as mensagens de registro para garantir que os clipes de áudio e vídeo de cada slide sejam gerados sem erros.
Operação da função em destaque
Geração automática de áudio
- Faça anotações para uma apresentação e o TRV gerará um discurso a partir das anotações.
- aprovar (um projeto de lei ou inspeção etc.)
---modelo
Especifique o modelo de fala (por exemplotts-1
), por meio de--voz
Selecione o tom. - Exemplo:
trv --input=presentation.typ --model=tts-1 --voice=bm_lewis
banda de saída bm_lewis
Tom do vídeo de locução.
Docker em execução local
- É executado dentro de um contêiner do Docker:
docker run -it --rm -v $(pwd):/data trv --input=/data/presentation.typ
-v
monta o diretório local para garantir que os arquivos sejam acessíveis.
Produção de vídeo em tela vertical
- Defina o tamanho da página como 1080x1920:
trv --input=presentation.typ --page=1080x1920
- Saída de arquivos MP4 adequados para plataformas de vídeos curtos.
advertência
- formato de arquivoA entrada deve ser um arquivo Typst. Se você não estiver familiarizado com o Typst, consulte a documentação oficial.
- dependência da redeO serviço on-line requer uma rede estável, e é recomendável usar o Docker para testes locais.
- Requisitos de hardwareSe estiver usando um modelo avançado (como o Zyphra Zonos), recomenda-se 8 GB de VRAM ou um serviço de nuvem.
Com as etapas acima, os usuários podem começar a usar o TRV rapidamente, transformando slides em vídeos profissionais e aumentando a eficiência da criação de conteúdo.