Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife
Total de 910 artigos

Tags: ai projetos de código aberto Página 44

Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包-首席AI分享圈

Clone Voice: ferramenta de clonagem de voz sem amostras em vários idiomas baseada em xtts_v2 para Windows com instalador de um clique.

Descrição geral O Clone Voice é uma ferramenta de clonagem de som de código aberto que fornece uma interface baseada na Web que permite aos usuários clonar vozes usando qualquer som ou gravação de voz pessoal. A ferramenta é simples de usar e pode ser executada localmente com um aplicativo pré-compilado, mesmo sem uma GPU NVIDIA. Ela é compatível com...

StreamingT2V:从文本到长视频的动态且可扩展的生成技术-首席AI分享圈

StreamingT2V: geração dinâmica e dimensionável de texto para vídeo longo

Introdução geral O StreamingT2V é um projeto público desenvolvido pela equipe de pesquisa de IA da Picsart, focado na geração de vídeos longos coerentes, dinâmicos e dimensionáveis com base em descrições textuais. Essa tecnologia usa uma abordagem autorregressiva avançada que garante a consistência temporal do vídeo, corresponde de perto ao texto da descrição e mantém a alta qualidade dos quadros...

Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器-首席AI分享圈

Text2Video-Zero: gerador de amostras zero de texto para vídeo lançado pela equipe de pesquisa de IA da Picsart

Descrição geral O Text2Video-Zero é uma implementação oficial de um gerador de texto para vídeo com amostra zero para o GitHub, desenvolvido pela equipe de pesquisa de IA da Picsart. O projeto oferece uma nova maneira de usar dicas de texto para gerar vídeos com consistência temporal e dicas de texto seguidas corretamente. A equipe também lançou...

Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声-首席AI分享圈

WebUI de conversão de voz com base em recuperação: uma estrutura para conversão de voz com base em recuperação e simulação de vozes cantadas na vida real

A WebUI de conversão de voz baseada em recuperação de introdução abrangente é uma estrutura de conversão de voz baseada em VITS simples e fácil de usar que permite a conversão de voz entre quaisquer alto-falantes, incluindo capas de músicas e alteração de voz em tempo real. Ela apresenta baixa latência, excelente efeito de mudança de voz, pequena quantidade de treinamento de dados...

VoiceCraft:开源零样本语音克隆与文本转语音工具-首席AI分享圈

VoiceCraft: ferramenta de clonagem de fala e conversão de texto em fala de código aberto com amostra zero

Introdução abrangente O VoiceCraft é uma ferramenta de edição de fala de código aberto e de síntese de fala de amostra zero baseada no modelo de linguagem Neural Codec. Ele emprega um método inovador de geração de sequência codificada que permite operações de inserção, exclusão e substituição em sequências de fala existentes para gerar uma fala editada natural e coerente. Ao mesmo tempo, ...

edge-tts: módulo Python de conversão de texto em fala | Serviço gratuito de conversão de texto em fala

Descrição geral edge-tts é um módulo Python de código aberto que permite aos usuários usar o serviço de conversão de texto em fala on-line do Microsoft Edge no código Python sem a necessidade de um navegador Microsoft Edge, sistema operacional Windows ou chave de API. Fornece o uso direto do edge-tts a partir da linha de comando e do edge-...

CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式-首席AI分享圈

CoAI.Dev (Chat Nio): solução completa de B/C para aplicativos de agregação de IA com faturamento flexível e suporte ao modelo de plano de assinatura

Introdução geral O CoAI.Dev (antigo Chat Nio) é uma plataforma de bate-papo que integra vários modelos de IA e oferece suporte a streaming distribuído, geração de imagens, sincronização e compartilhamento de conversas entre dispositivos. Ele implementa um sistema de assinatura e faturamento de token, serviço de trânsito de chaves e suporte a vários modelos, além de incluir pesquisa conectada e IA...

ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI-首席AI分享圈

ChatOllama: interface de usuário nativa de aplicativo de bate-papo em tempo real baseada em Nuxt 3 e Ollama

Introdução abrangente O ChatOllama é um projeto de aplicativo de bate-papo on-line de código aberto baseado em um modelo de linguagem em grande escala (LLM), com suporte a vários modelos de linguagem e gerenciamento de base de conhecimento. Os usuários podem usar a plataforma para gerenciamento de modelos (exibição de lista, download, exclusão), bate-papo com modelos e outras funções. O projeto usa a estrutura Nuxt 3 ...

MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描-首席AI分享圈

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele pode converter documentos PDF multimodais que contenham imagens, fórmulas, tabelas e outros elementos em m...

DCT-Net:照片和视频转绘为动漫风格化的开源工具-首席AI分享圈

DCT-Net: uma ferramenta de código aberto para transpainting de fotos e vídeos para estilização de anime

Introdução geral O DCT-Net é um projeto de código aberto desenvolvido pela DAMO Academy e pelo Instituto de Tecnologia da Computação Wang Xuan, da Universidade de Pequim, com o objetivo de obter uma transformação estilizada de imagens em anime. O projeto utiliza técnicas de aprendizagem profunda por meio da tradução calibrada por domínio (DCT) para...

Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)-首席AI分享圈

Diffusers Image Outpaint: ferramenta superpotente de código aberto de extensão de imagem AI, pintura de imagem (pintura de imagem)

Introdução geral O Diffusers Image Outpaint é uma poderosa ferramenta de expansão de imagem de IA criada pelo membro da comunidade Hugging Face, fffiloni. A ferramenta usa técnicas avançadas de modelagem de difusão para expandir perfeitamente uma imagem (pintar as bordas da imagem) para produzir uma imagem de alta qualidade...

Tap4 AI WebUI:开源轻量级AI工具导航项目-首席AI分享圈

Tap4 AI WebUI: projeto de navegação de ferramenta de IA leve e de código aberto

Introdução abrangente O Tap4 AI WebUI é um projeto de site de navegação de ferramentas de IA leve e de código aberto, projetado para ajudar os usuários a criar facilmente seu próprio catálogo de ferramentas de IA. O projeto usa a pilha de tecnologia Next.js e Supabase, suporte para otimização de SEO em vários idiomas, para fornecer funções de filtragem de classificação de ferramentas de IA, pesquisa e exibição detalhada...

CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版-首席AI分享圈

CodeFormer: restauração facial de imagens e vídeos, restauração de fotos antigas, oferece versão de implantação com um clique

CodeFormer Introdução geral O CodeFormer é uma base de código para reparo robusto de faces cegas, desenvolvida por uma equipe de pesquisadores do S-Lab da Universidade Tecnológica de Nanyang e apresentada no NeurIPS 2022. O projeto utiliza a tecnologia Codebook Lookup Transformer, que tem como objetivo aprimorar...

Curiosity:使用LangGraph构建类似 Perplexity 的AI搜索工具-首席AI分享圈

Curiosity: criando uma ferramenta de pesquisa de IA semelhante à do Perplexity usando o LangGraph

Introdução geral O Curiosity é um projeto voltado para exploração e experimentação, usando principalmente as pilhas de tecnologia LangGraph e FastHTML, com o objetivo de criar um produto de pesquisa semelhante ao Perplexity AI. No centro do projeto está um agente ReAct simples que usa a pesquisa Tavily para aprimorar a geração de texto...

Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型-首席AI分享圈

Moshi: uma estrutura de diálogo de fala em tempo real com suporte a vários idiomas e sotaques para modelos de base de diálogo de fala

Introdução abrangente O Moshi Chat é um assistente de voz de IA em tempo real de ponta a ponta lançado pela Kyutai, um laboratório francês de IA sem fins lucrativos. Ele não apenas ouve em tempo real, mas também se envolve em conversas naturais e oferece suporte a interações multimodais, incluindo a capacidade de ver, ouvir e falar.

QAnything:高度集成RAG处理流程的本地知识库问答系统-首席AI分享圈

QAnything: sistema de perguntas e respostas da base de conhecimento local com fluxo de processamento de RAG altamente integrado

QAnything Introdução geral O QAnything (Question and Answer based on Anything) é um sistema local de perguntas e respostas de base de conhecimento lançado pela NetEase, que suporta todos os tipos de formatos de arquivos e bancos de dados e pode ser instalado e usado off-line. Ele pode lidar com PDF, Word, PPT, XLS e outros formatos de documentos, suportar a...

StickerBaker:用AI制作个性贴纸图片-首席AI分享圈

StickerBaker: Crie imagens de adesivos personalizados com IA

Descrição geral O stickerbaker é um criador de adesivos de código aberto que usa tecnologia de inteligência artificial para criar uma variedade de adesivos interessantes. Quer você queira um simples adesivo de gato ou queira criar uma gama diversificada de adesivos, o stickerbaker tem tudo o que você precisa. Basta descrever o adesivo que você deseja...

ALog:便携AI语音日记应用,支持语音转文字。-首席AI分享圈

ALog: aplicativo portátil de diário de voz com IA e suporte de fala para texto.

Introdução geral O ALog é um aplicativo de diário de voz baseado em IA projetado para ajudar os usuários a registrar suas vidas diárias por voz. Ele foi desenvolvido pela duxins e tem código aberto no GitHub. Os usuários podem gravar seu diário por meio de entrada de voz, e o aplicativo converterá automaticamente a voz em texto e o analisará de forma inteligente...

pt_BRPortuguês do Brasil