Total de 472 artigos
Tags: ai projetos de código aberto Página 20
Introdução geral O Sonic é uma plataforma inovadora focada na percepção global de áudio, projetada para gerar animações de retratos vívidos impulsionadas pelo áudio. Desenvolvida por uma equipe de pesquisadores da Tencent e da Universidade de Zhejiang, a plataforma usa informações de áudio para controlar expressões faciais e movimentos da cabeça para gerar vídeos animados naturais e suaves.
Introdução abrangente O Ultravox é um inovador modelo multimodal de linguagem grande (LLM) projetado para processamento de fala em tempo real. Ao contrário dos sistemas tradicionais de reconhecimento de fala, o Ultravox elimina a necessidade de um estágio separado de reconhecimento de fala em áudio (ASR) e é capaz de converter diretamente o áudio em texto em um espaço de alta dimensão. Esse recurso torna...
Introdução abrangente O Infinite Zoom Stable Diffusion (Difusão estável de zoom infinito) é um projeto de código aberto desenvolvido para criar vídeos com zoom infinito usando técnicas de difusão estável. O projeto oferece um notebook Colab fácil de usar, em que os usuários podem gerar um loop infinito de vídeo por meio de vários prompts. Projeto ...
Introdução geral O Easy-Wav2Lip é uma ferramenta aprimorada baseada no Wav2Lip, projetada para simplificar o processo de sincronização labial de vídeo. A ferramenta oferece configuração e implementação mais simples, suporta o Google Colab e a instalação local. Ao otimizar o algoritmo, o Easy-Wav2Lip aumenta significativamente a velocidade de processamento e corrige...
Introdução abrangente O AgentClientDemo é um projeto Python abrangente que integra a funcionalidade inteligente (Agente) e cliente (Cliente). O projeto é baseado na estrutura PyQt e oferece uma interface gráfica do usuário (GUI) intuitiva e fácil de usar. Com esse projeto, os usuários podem experimentar o corpo inteligente...
Introdução abrangente O HelloMeme é um projeto de código aberto desenvolvido pela HelloVision, com o objetivo de gerar imagens e vídeos de alta qualidade por meio da integração do Spatial Knitting Attentions para incorporar condições de alto nível e alta fidelidade em modelos de difusão. O código e a modelagem do projeto ...
Introdução abrangente O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). Ela foi desenvolvida pela Lumina AI Inc. e usa modelos visuais avançados para a ingestão de documentos...
Introdução geral O GitIngest é uma ferramenta de código aberto projetada para transformar repositórios de código do GitHub em texto adequado para dicas do Modelo de Linguagem Grande (LLM). Com uma operação simples, os usuários podem extrair e formatar o conteúdo de qualquer repositório do GitHub em texto adequado para o uso do LLM. A ferramenta oferece análise com um clique...
Introdução geral A CodeArena é uma plataforma exclusiva projetada para apresentar os melhores modelos de geração de código-fonte aberto (LLMs) por meio de confrontos em tempo real. Os usuários podem assistir a diferentes LLMs competindo nas mesmas tarefas de programação e ver os modelos com melhor desempenho por meio de tabelas de classificação em tempo real. A plataforma utiliza a Together AI para gerar código...
Introdução abrangente O NSFW Detector é uma ferramenta de detecção de conteúdo incômodo baseada em IA, usada principalmente para detectar se imagens, vídeos, arquivos PDF etc. contêm conteúdo incômodo. A ferramenta adota o modelo Falconsai/nsfwimagedetection e usa o vit-base-patch16-224-in do Google...