Introdução geral
O Tencent Hybrid Text Generation Video (disponível no Yuanbao APP) é uma plataforma de geração de vídeo baseada na tecnologia de IA lançada pela Tencent. A plataforma utiliza o Tencent Mixed Yuan Big Model com poderoso conhecimento entre domínios e compreensão de linguagem natural para gerar conteúdo de vídeo de alta qualidade com base nas descrições de texto dos usuários. Seja um estilo realista ou virtual, os vídeos gerados por texto da Tencent Mixed Element podem ser facilmente realizados, ajudando os usuários a transformar sua criatividade em trabalhos de vídeo vívidos. A plataforma é adequada para uma variedade de necessidades de expressão criativa, desde a criação pessoal até aplicativos comerciais, oferecendo uma solução de geração de vídeo conveniente e eficiente.
O HunyuanVideo é uma estrutura de geração de vídeo de código aberto da Tencent que tem como objetivo fornecer recursos de geração de vídeo de alta qualidade. O projeto é baseado no PyTorch e inclui modelos pré-treinados, código de inferência e vídeos de amostra. O HunyuanVideo emprega várias tecnologias importantes, como curadoria de dados, treinamento conjunto de modelos de imagem e vídeo e uma infraestrutura eficiente para dar suporte ao treinamento e à inferência de modelos em grande escala. Com mais de 13 bilhões de parâmetros de modelo, é um dos modelos de geração de vídeo mais parametrizados no espaço de código aberto. O HunyuanVideo supera muitos dos principais modelos de código fechado em termos de qualidade visual, diversidade de movimento, alinhamento de texto-vídeo e estabilidade de geração.
Lista de funções
- Vídeo de geração de textoDescrição: O usuário insere uma descrição de texto e a plataforma gera automaticamente o conteúdo de vídeo correspondente.
- Suporte a vários estilosSuporte à geração de vídeo nos estilos realista e virtual para atender a diferentes necessidades criativas.
- Saída de alta qualidadeGera vídeos com alta precisão física e consistência de cena, proporcionando uma experiência visual com qualidade de cinema.
- Geração de ação contínuaA capacidade de gerar cenas de ação contínua garante um vídeo suave e natural.
- Lentes artísticasSuporte ao uso de filmagens de nível de diretor para proporcionar uma apresentação artística de vídeo.
- Conformidade físicaO vídeo gerado está em conformidade com as leis da física e reduz a sensação de dissonância do espectador.
Usando a Ajuda
Guia de operação de funções
Vídeo de geração de texto
- Descrição do texto de entradaDigite a descrição do vídeo que deseja gerar na caixa de texto. Por exemplo: "Uma menina acende fósforos no inverno, o céu está escuro e o chão está coberto por uma camada de neve".
- Escolha um estiloEscolha o estilo de vídeo que você deseja, realista ou virtual.
- Gerar vídeoClique no botão "Generate" (Gerar) e o sistema gerará automaticamente o conteúdo de vídeo correspondente.
- Visualização e downloadDepois de gerar, você pode visualizar o efeito do vídeo, fazer download e salvá-lo quando estiver satisfeito.
Suporte a vários estilos
- Mudança de estiloQuando gerar vídeos, você pode alternar livremente entre os estilos real e virtual para atender a diferentes necessidades criativas.
- Predefinições de estiloA plataforma oferece uma variedade de predefinições de estilo para que os usuários possam escolher o estilo certo para a geração de vídeo, conforme necessário.
Saída de alta qualidade
- Experiência com qualidade de cinemaGera vídeos com alta precisão física e consistência de cena, proporcionando uma experiência visual com qualidade de cinema.
- Ajustes detalhadosOs usuários podem fazer ajustes detalhados no vídeo gerado para garantir que cada quadro atenda às expectativas.
Geração de ação contínua
- Descrição da ação contínua de entradaDescrição do texto: Insira uma cena de ação contínua na descrição do texto, por exemplo, "Uma pessoa correndo em uma esteira".
- Gerar vídeo de ação contínuaO sistema gerará automaticamente vídeos de movimentos contínuos para garantir movimentos suaves e naturais.
Lentes artísticas
- Seleção de lentesA plataforma suporta uma ampla gama de opções de lentes, permitindo que os usuários selecionem a lente de vídeo apropriada para a geração.
- Expressão artísticaO vídeo resultante conterá o uso artístico da filmagem, proporcionando um efeito visual mais expressivo.
Conformidade física
- regra físicaO vídeo gerado está em conformidade com as leis da física e reduz a sensação de dissonância do espectador.
- Consistência do cenárioAssegure a consistência e a coerência em todas as cenas do vídeo.
problemas comuns
- Falha na geração de vídeoDescrição do texto: Verifique se a descrição de texto inserida atende aos requisitos ou tente gerá-la novamente.
- Problemas de loginSe não conseguir fazer login, verifique se o número do seu celular e o código de verificação estão corretos ou entre em contato com o atendimento ao cliente para obter assistência.
Processo de instalação e implantação
- dependência ambientalVerifique se o Python 3.8 ou superior está instalado e se as bibliotecas de dependência necessárias estão instaladas.
pip install -r requirements.txt
- Download do modelo pré-treinadoDownload do modelo pré-treinado da página do projeto e coloque-o no diretório especificado.
- Executar o código de inferênciaUse o seguinte comando para executar o código de inferência para gerar o vídeo.
python sample_video.py --input_text "Gerar texto de descrição para o vídeo"
Função Fluxo de operação
Geração de texto para vídeo
- Descrição do texto de entradaDigite o texto da descrição na linha de comando ou no Gradio Web Demo.
- Executar o código de inferênciaExecute o código de inferência para gerar o arquivo de vídeo correspondente.
- Exibir resultados geradosVisualização: Visualize o arquivo de vídeo gerado no diretório de saída.
Geração de imagem para vídeo
- Arquivo de imagem de entradaCaminho do arquivo de imagem de entrada: Fornece o caminho do arquivo de imagem de entrada.
- Executar o código de inferênciaExecute o código de inferência para gerar vídeos dinâmicos.
- Exibir resultados geradosVisualização: Visualize o arquivo de vídeo gerado no diretório de saída.
Raciocínio paralelo multi-GPU
- Configuração de um ambiente com várias GPUsVerifique se há várias GPUs instaladas no sistema e se o ambiente CUDA está configurado.
- Execução de código de inferência paralelaExecute o código de inferência paralela multi-GPU usando o seguinte comando.
python sample_video.py --input_text "Texto de descrição para o vídeo gerado" --gpus 4
Demonstração Web do Gradio
- Iniciando o servidor GradioInicie o servidor Gradio Web Demo executando o seguinte comando.
python gradio_server.py
- Acesso à demonstração na WebAbra o URL fornecido em seu navegador e experimente o recurso de geração de texto para vídeo.
Download do modelo de pré-treinamento
- Visite a página do projetoAcesse a página do projeto GitHub do HunyuanVideo.
- Download do modelo pré-treinadoClique no link de download do arquivo do modelo pré-treinado.
- Colocação de arquivos de modeloColocar o arquivo de modelo baixado no diretório especificado do projeto.
Com a ajuda detalhada acima, os usuários podem começar a usar facilmente o HunyuanVideo e experimentar a função de geração de vídeo de alta qualidade.