Descrição geral O Clone Voice é uma ferramenta de clonagem de som de código aberto que fornece uma interface baseada na Web que permite aos usuários clonar vozes usando qualquer som ou gravação de voz pessoal. A ferramenta é simples de usar e pode ser executada localmente com um aplicativo pré-compilado, mesmo sem uma GPU NVIDIA. Ela é compatível com...
Introdução geral O StreamingT2V é um projeto público desenvolvido pela equipe de pesquisa de IA da Picsart, focado na geração de vídeos longos coerentes, dinâmicos e dimensionáveis com base em descrições textuais. Essa tecnologia usa uma abordagem autorregressiva avançada que garante a consistência temporal do vídeo, corresponde de perto ao texto da descrição e mantém a alta qualidade dos quadros...
Habilite o modo de programação inteligente Builder, uso ilimitado do DeepSeek-R1 e DeepSeek-V3, experiência mais suave do que a versão internacional. Basta digitar os comandos chineses, sem conhecimento de programação, para escrever seus próprios aplicativos.
Descrição geral O Text2Video-Zero é uma implementação oficial de um gerador de texto para vídeo com amostra zero para o GitHub, desenvolvido pela equipe de pesquisa de IA da Picsart. O projeto oferece uma nova maneira de usar dicas de texto para gerar vídeos com consistência temporal e dicas de texto seguidas corretamente. A equipe também lançou...
A WebUI de conversão de voz baseada em recuperação de introdução abrangente é uma estrutura de conversão de voz baseada em VITS simples e fácil de usar que permite a conversão de voz entre quaisquer alto-falantes, incluindo capas de músicas e alteração de voz em tempo real. Ela apresenta baixa latência, excelente efeito de mudança de voz, pequena quantidade de treinamento de dados...
Introdução abrangente O VoiceCraft é uma ferramenta de edição de fala de código aberto e de síntese de fala de amostra zero baseada no modelo de linguagem Neural Codec. Ele emprega um método inovador de geração de sequência codificada que permite operações de inserção, exclusão e substituição em sequências de fala existentes para gerar uma fala editada natural e coerente. Ao mesmo tempo, ...
Descrição geral edge-tts é um módulo Python de código aberto que permite aos usuários usar o serviço de conversão de texto em fala on-line do Microsoft Edge no código Python sem a necessidade de um navegador Microsoft Edge, sistema operacional Windows ou chave de API. Fornece o uso direto do edge-tts a partir da linha de comando e do edge-...
Introdução geral O CoAI.Dev (antigo Chat Nio) é uma plataforma de bate-papo que integra vários modelos de IA e oferece suporte a streaming distribuído, geração de imagens, sincronização e compartilhamento de conversas entre dispositivos. Ele implementa um sistema de assinatura e faturamento de token, serviço de trânsito de chaves e suporte a vários modelos, além de incluir pesquisa conectada e IA...
Introdução abrangente O ChatOllama é um projeto de aplicativo de bate-papo on-line de código aberto baseado em um modelo de linguagem em grande escala (LLM), com suporte a vários modelos de linguagem e gerenciamento de base de conhecimento. Os usuários podem usar a plataforma para gerenciamento de modelos (exibição de lista, download, exclusão), bate-papo com modelos e outras funções. O projeto usa a estrutura Nuxt 3 ...
Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele pode converter documentos PDF multimodais que contenham imagens, fórmulas, tabelas e outros elementos em m...
Introdução geral O DCT-Net é um projeto de código aberto desenvolvido pela DAMO Academy e pelo Instituto de Tecnologia da Computação Wang Xuan, da Universidade de Pequim, com o objetivo de obter uma transformação estilizada de imagens em anime. O projeto utiliza técnicas de aprendizagem profunda por meio da tradução calibrada por domínio (DCT) para...
Introdução geral O Diffusers Image Outpaint é uma poderosa ferramenta de expansão de imagem de IA criada pelo membro da comunidade Hugging Face, fffiloni. A ferramenta usa técnicas avançadas de modelagem de difusão para expandir perfeitamente uma imagem (pintar as bordas da imagem) para produzir uma imagem de alta qualidade...
Introdução abrangente O Tap4 AI WebUI é um projeto de site de navegação de ferramentas de IA leve e de código aberto, projetado para ajudar os usuários a criar facilmente seu próprio catálogo de ferramentas de IA. O projeto usa a pilha de tecnologia Next.js e Supabase, suporte para otimização de SEO em vários idiomas, para fornecer funções de filtragem de classificação de ferramentas de IA, pesquisa e exibição detalhada...
CodeFormer Introdução geral O CodeFormer é uma base de código para reparo robusto de faces cegas, desenvolvida por uma equipe de pesquisadores do S-Lab da Universidade Tecnológica de Nanyang e apresentada no NeurIPS 2022. O projeto utiliza a tecnologia Codebook Lookup Transformer, que tem como objetivo aprimorar...
Introdução abrangente O GFPGAN (Generative Facial Prior GAN) é um algoritmo de reparo facial de código aberto desenvolvido pelo Tencent ARC (Applied Research Center). O algoritmo utiliza fatores anteriores ricos e diversos encapsulados em GANs faciais pré-treinados (por exemplo, StyleGAN2) para reparo cego de faces.
Introdução geral O Curiosity é um projeto voltado para exploração e experimentação, usando principalmente as pilhas de tecnologia LangGraph e FastHTML, com o objetivo de criar um produto de pesquisa semelhante ao Perplexity AI. No centro do projeto está um agente ReAct simples que usa a pesquisa Tavily para aprimorar a geração de texto...
Introdução abrangente O Moshi Chat é um assistente de voz de IA em tempo real de ponta a ponta lançado pela Kyutai, um laboratório francês de IA sem fins lucrativos. Ele não apenas ouve em tempo real, mas também se envolve em conversas naturais e oferece suporte a interações multimodais, incluindo a capacidade de ver, ouvir e falar.
QAnything Introdução geral O QAnything (Question and Answer based on Anything) é um sistema local de perguntas e respostas de base de conhecimento lançado pela NetEase, que suporta todos os tipos de formatos de arquivos e bancos de dados e pode ser instalado e usado off-line. Ele pode lidar com PDF, Word, PPT, XLS e outros formatos de documentos, suportar a...
Descrição geral O stickerbaker é um criador de adesivos de código aberto que usa tecnologia de inteligência artificial para criar uma variedade de adesivos interessantes. Quer você queira um simples adesivo de gato ou queira criar uma gama diversificada de adesivos, o stickerbaker tem tudo o que você precisa. Basta descrever o adesivo que você deseja...
Introdução geral O ALog é um aplicativo de diário de voz baseado em IA projetado para ajudar os usuários a registrar suas vidas diárias por voz. Ele foi desenvolvido pela duxins e tem código aberto no GitHub. Os usuários podem gravar seu diário por meio de entrada de voz, e o aplicativo converterá automaticamente a voz em texto e o analisará de forma inteligente...
Não consegue encontrar ferramentas de IA? Tente aqui!
Basta digitar a palavra-chave Acessibilidade Bing SearchA seção Ferramentas de IA deste site é uma maneira rápida e fácil de encontrar todas as ferramentas de IA deste site.