Introdução geral
O Text2Edit é um projeto de código aberto, hospedado no GitHub, que visa a fornecer funções eficientes de edição de texto e geração de anúncios. O principal objetivo do projeto é ajudar os usuários a processar rapidamente o conteúdo de texto e gerar material publicitário de alta qualidade por meio de uma interface fácil de usar e recursos avançados. O projeto Text2Edit é mantido por um grupo de desenvolvedores, a base de código é aberta e os usuários podem acessar e contribuir livremente. As principais linguagens de programação do projeto incluem JavaScript, HTML e CSS, garantindo a compatibilidade entre plataformas e uma excelente experiência do usuário.
Características técnicas
1. modelos multimodais de linguagem ampla (MLLMs)
O Multimodal Big Language Model é a base do projeto, que é capaz de processar simultaneamente informações em várias modalidades, como texto, imagens e vídeo.
2. amostragem de alta taxa de quadros e técnicas de processamento lento-rápido
Para entender melhor as informações espaço-temporais do vídeo, o projeto usa técnicas de amostragem de alta taxa de quadros e processamento lento-rápido:
- Amostragem de alta taxa de quadros: com a amostragem de quadros de vídeo em uma frequência de 2 quadros por segundo (fps), o modelo consegue captar com mais sensibilidade as alterações temporais no vídeo. Essa abordagem aumenta significativamente a capacidade do modelo de entender as alterações na dinâmica do vídeo.
- Técnica de processamento lento-rápido: o modelo processa quadros de vídeo usando dois caminhos simultaneamente.
- Caminho lento: os quadros são processados em uma taxa de quadros menor (por exemplo, 0,5 fps), mas mais tokens são atribuídos por quadro para capturar informações espaço-temporais detalhadas.
- Caminho rápido: processa quadros em uma alta taxa de quadros (por exemplo, 2 fps), mas atribui menos tokens por quadro, concentrando-se na captura de cenas que mudam rapidamente. Essa estratégia de caminho duplo equilibra as informações espaço-temporais e semânticas do vídeo e melhora significativamente a compreensão do modelo sobre o conteúdo do vídeo.
3. edição orientada por texto
O mecanismo de edição orientado por texto permite que os usuários controlem com precisão o resultado da edição de vídeo por meio de entrada de texto. Os usuários podem especificar a duração do vídeo, a linha da história, o público-alvo, o estilo do roteiro, os pontos de venda do produto a serem enfatizados e outras informações. O modelo gera um rascunho de edição de vídeo que atende às necessidades do usuário com base nesses avisos textuais, garantindo um alto grau de controle e variedade no resultado.
4. implementação específica de edição de vídeo
- Incorporação e processamento de quadros de vídeo: os quadros de vídeo são primeiro convertidos em vetores de incorporação por um codificador visual, como CLIP ou OpenCLIP. Esses vetores são inseridos no LLM junto com os vetores de incorporação de texto, e o modelo processa esses vetores de incorporação por meio de um mecanismo de autoatenção para gerar rascunhos para edição de vídeo.
- Geração de rascunho e pós-processamento: a saída de rascunho do modelo inclui a organização de videoclipes, roteiros de locução e elementos decorativos (por exemplo, trilhas sonoras, imagens humanas digitais etc.). Esses rascunhos são processados por meio de pós-processamento (por exemplo, síntese de fala, recuperação de música etc.) para produzir o vídeo final renderizável.