Total de 480 artigos
Tags: ai projetos de código aberto Página 45
Introdução geral O SadTalker é uma ferramenta de código aberto que combina fotos estáticas e arquivos de áudio para criar vídeos de avatares falantes realistas para uma ampla variedade de cenários, como mensagens personalizadas, conteúdo educacional e muito mais. O uso revolucionário de tecnologias de modelagem 3D, como ExpNet e PoseVAE, excelente captura...
Introdução geral O VideoReTalking é um sistema inovador que permite aos usuários gerar vídeos faciais sincronizados com os lábios com base no áudio de entrada, produzindo vídeos de saída de alta qualidade e sincronizados com os lábios, mesmo com emoções diferentes. O sistema divide esse objetivo em três tarefas sucessivas: geração de vídeos faciais com expressões típicas...
Introdução geral O MuseV é um projeto público no GitHub que tem como objetivo permitir a geração de vídeos de avatar com duração ilimitada e alta fidelidade. Ele se baseia na tecnologia de difusão e oferece Image2Video, Text2Image2Video, Video2Video e muitos outros recursos. Fornece estrutura de modelo, casos de uso, início rápido...
Introdução abrangente O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM), para fornecer suporte. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para aplicativos de modelo de linguagem grande (LLM) para fornecer suporte.
Introdução geral magic-html é uma biblioteca Python projetada para simplificar o processo de extração do conteúdo da região do corpo do HTML. Seja lidando com estruturas complexas de HTML ou com páginas da Web simples, essa biblioteca tem como objetivo fornecer uma interface conveniente e eficiente para os usuários. Ela oferece suporte à extração multimodal, extração de vários layouts...
WebPilot Introdução geral O Webpilot é um "assistente da Web" gratuito e de código aberto que permite que você se comunique livremente com qualquer página da Web ou execute tarefas automatizadas. Em vez de alternar entre páginas ou copiar e colar, basta selecionar o texto ou digitar comandos, e o Webpilot fornecerá informações em tempo real e tarefas inteligentes...
Introdução abrangente O DB-GPT é uma estrutura de desenvolvimento de aplicativos de dados nativos de IA de código aberto criada usando AWEL (Agentic Workflow Expression Language) e tecnologias de corpo inteligente. O projeto tem como objetivo criar uma infraestrutura no campo de modelos grandes por meio do desenvolvimento de vários recursos técnicos, incluindo um sistema de gerenciamento de vários modelos (SMMF),...
DreamTalk Introdução abrangente O DreamTalk é uma estrutura de geração de talking head de expressão orientada por modelo de difusão, desenvolvida em conjunto pela Universidade de Tsinghua, pelo Grupo Alibaba e pela Universidade de Ciência e Tecnologia de Huazhong. Ele consiste principalmente em três partes: uma rede de redução de ruído, um especialista em lábios com reconhecimento de estilo e um preditor de estilo, e é capaz de gerar uma variedade de entradas de áudio com base em...
Introdução geral O GPT Crawler é uma ferramenta de código aberto que permite aos usuários gerar arquivos de conhecimento por meio do rastreamento do conteúdo de um site específico, o que, por sua vez, cria modelos GPT personalizados. O projeto é usado principalmente para rastrear e organizar informações da Web e suporta a execução via API e implantação local. Os usuários podem configurar o rastreador de forma flexível para se adequar...
Introdução abrangente O InstantID é uma tecnologia avançada voltada para a geração de imagens com estilos ou poses personalizados em segundos, garantindo um alto nível de fidelidade com o uso de uma única imagem de identificação de referência. A tecnologia usa uma solução baseada em modelo de difusão, integrando imagens faciais, imagens de...