Projeto de código aberto de IA

Total de 1020 artigos
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

Introdução abrangente O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos Marker da plataforma podem ser usados com rapidez e precisão...
9 meses atrás
03.3K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: o principal modelo de grande porte leve e de alto desempenho do mundo

Introdução geral A ModelBest é uma empresa que se concentra no desenvolvimento de modelos grandes, leves e de alto desempenho, e se dedica a aplicar tecnologias avançadas de IA aos principais produtos eletrônicos de consumo e a todos os tipos de dispositivos finais da vida cotidiana. Sua série MiniCPM de modelos finais com extrema potência aritmética e eficiência no uso da memória...
10 meses atrás
03K
Podcastfy:多源内容转多语言音频对话工具,NotebookLM 播客功能的开源替代方案

Podcastfy: conteúdo de várias fontes para ferramenta de conversação de áudio multilíngue, uma alternativa de código aberto aos recursos de podcasting do NotebookLM

Introdução geral O Podcastfy é um pacote Python de código aberto que usa a tecnologia GenAI (Generative Artificial Intelligence, Inteligência Artificial Generativa) para converter conteúdo da Web, arquivos PDF, texto, imagens, vídeos do YouTube e muitas outras fontes em...
10 meses atrás
02.9K
文多多 AiPPT:AI生成PPT,演讲稿生成

Wenduoduo AiPPT: PPT gerado por IA, geração de apresentações

Introdução abrangente O AiPPT é uma ferramenta de geração de PPT baseada em tecnologia de inteligência artificial, projetada para ajudar os usuários a criar rapidamente apresentações profissionais. Ele gera automaticamente slides ricos em conteúdo e com design bonito, inserindo temas, carregando arquivos ou fornecendo URLs etc. Ele oferece suporte a gráficos nativos, animações e recursos especiais em 3D...
6 meses atrás
03.3K
Easegen:开源数字人课程制作平台,PPT一键生成克隆数字人讲解视频

Easegen: plataforma de produção de curso humano digital de código aberto, vídeo de palestra humana digital de clonagem de geração de PPT com um clique

Introdução abrangente O Easegen é uma plataforma de criação de cursos digitais humanos de código aberto que visa melhorar a eficiência da produção e do gerenciamento de conteúdo de ensino por meio da tecnologia de IA. A plataforma oferece uma solução completa, desde a produção do curso, o gerenciamento de vídeo até o questionamento inteligente, que permite aos usuários criar cursos digitais em vídeo com explicação humana...
10 meses atrás
03.4K
Open Canvas:代码编辑协作画布,开源版OpenAI Canvas/Claude Artifacts

Open Canvas: tela colaborativa de edição de código, versão de código aberto do OpenAI Canvas/Claude Artifacts

Introdução geral A LangChain apresenta o Open Canvas, um aplicativo da Web de código aberto projetado para aprimorar a experiência de edição e colaboração de documentos com funcionalidade de memória de agente duplo integrada e smith integrado para observar todos os detalhes da execução. A plataforma é alimentada pelo OpenA...
5 meses atrás
03.7K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio: versão de interface fácil de usar do sistema multiagente AutoGen

Descrição geral O AutoGen Studio 2.0 é uma interface de usuário desenvolvida pelo AutoGen para simplificar o processo de criação e gerenciamento de soluções multiagentes. A plataforma permite que os usuários definam e modifiquem declarativamente os agentes e seus fluxos de trabalho por meio de uma interface intuitiva...
7 meses atrás
03.9K
MeetingMind:依赖OpenAI Whisper的开源智能会议记录与总结工具

MeetingMind: Ferramenta inteligente de código aberto para registro e resumo de reuniões que se baseia no OpenAI Whisper

Introdução geral O MeetingMind é um aplicativo avançado de IA projetado para melhorar a eficiência da captura e do resumo de reuniões de negócios. O aplicativo integra a tecnologia Whisper da OpenAI para uma conversão precisa de voz em texto e usa o IBM Watso...
10 meses atrás
03.4K
Coqui TTS(xTTS):文本到语音生成的深度学习工具包,支持多种语言和声音克隆功能

Coqui TTS (xTTS): um kit de ferramentas de aprendizagem profunda para geração de texto para fala com suporte multilíngue e recursos de clonagem de voz

Introdução abrangente O Coqui TTS é um kit de ferramentas de geração de texto para fala (TTS) avançado e de código aberto baseado em técnicas de aprendizagem profunda. Ele foi testado em ambientes de pesquisa e produção e oferece um rico conjunto de recursos e modelos que suportam a conversão de texto em fala em vários idiomas.
6 meses atrás
03.5K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree: um mecanismo de pesquisa de IA que combina bases de conhecimento locais com informações de pesquisa

Introdução geral O MemFree é um mecanismo de pesquisa de IA híbrido avançado capaz de pesquisar e fazer perguntas por meio de texto, imagens, documentos e páginas da Web. Ele fornece acesso com um clique aos resultados da pesquisa de texto, mapas mentais, imagens e vídeos. O MemFree tem como objetivo extrair informações da base de conhecimento do usuário e...
10 meses atrás
03.1K
BlinkShot:输入提示词实时生成图像(免费接入Flux Schnell模型)

BlinkShot: geração de imagens em tempo real digitando palavras de alerta (acesso gratuito ao modelo Flux Schnell)

Descrição geral O BlinkShot é um gerador de imagens de IA em tempo real e de código aberto que utiliza a tecnologia Together AI e Flux Schnell para permitir que os usuários gerem imagens de alta qualidade à medida que inserem avisos. A plataforma é totalmente gratuita e oferece suporte à personalização do usuário e à...
10 meses atrás
03.7K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: kit de ferramentas de reconhecimento de fala de código aberto, separação de locutor / reconhecimento de fala de diálogo com várias pessoas

Introdução abrangente O FunASR é um kit de ferramentas de reconhecimento de fala de código aberto desenvolvido pelo Alibaba Dharma Institute, com o objetivo de unir pesquisa acadêmica e aplicações industriais. Ele suporta uma ampla gama de recursos de reconhecimento de fala, incluindo reconhecimento de fala (ASR), detecção de ponto final de voz (VAD), recuperação de pontuação, modelagem de linguagem, fala...
10 meses atrás
04.5K
UltraPixel:革新超高分辨率图像生成技术,图像细节丰富

UltraPixel: tecnologia revolucionária de geração de imagens de altíssima resolução com riqueza de detalhes de imagem

Introdução geral O UltraPixel é uma tecnologia avançada de geração de imagens de resolução ultra-alta projetada para criar imagens de altíssima qualidade e ricas em detalhes. Ela foi desenvolvida pelo usuário catcathh do GitHub e apresentada no NeurIPS 2024.U...
10 meses atrás
02.9K
SiYuan(思源笔记):隐私优先的个人知识管理软件,支持AI写作/问答聊天

SiYuan (SiYuan Notes): software de gerenciamento de conhecimento pessoal que prioriza a privacidade com suporte a bate-papo de perguntas e respostas/escrita de IA

Geral: o SiYuan Notes (SiYuan) é um software de gerenciamento de conhecimento pessoal que prioriza a privacidade, é totalmente de código aberto e oferece suporte à auto-hospedagem. Ele é escrito em TypeScript e Golang, fornece referências refinadas em nível de bloco e Markdown WYSIWYG (WYSIWY...
6 meses atrás
03.9K
阿布量化交易系统:基于Python的开源量化交易平台

Sistema de negociação quantitativa Abu: plataforma de negociação quantitativa de código aberto baseada em Python

Introdução geral O Abu Quantitative Trading System é uma plataforma de código aberto baseada em Python. Foi criada pelo usuário "bbfamily" para ajudar os investidores a implementar estratégias de negociação quantitativas por meio de código. O sistema suporta backtesting e negociação de vários produtos financeiros, como ações, opções, futuros e bitcoin. Ele...
5 meses atrás
02.5K
Knowledge Table:高效提取与探索结构化数据的开源工具

Knowledge Table: uma ferramenta de código aberto para extração e exploração eficientes de dados estruturados

Introdução abrangente A Knowledge Table (Tabela de conhecimento) é um projeto de código aberto criado para simplificar o processo de extração e exploração de dados estruturados de documentos não estruturados. Os usuários podem criar representações de conhecimento estruturado, como tabelas e gráficos, por meio de uma interface de consulta em linguagem natural. A ferramenta permite personalizar a extração ...
10 meses atrás
02.8K
CogView3:智谱轻言开源的级联扩散文本生成图像模型

CogView3: modelo de imagem de geração de texto de difusão em cascata de código aberto do Wisdom Spectrum

Introdução abrangente O CogView3 é um sistema avançado de imagens geradas por texto desenvolvido pela Universidade de Tsinghua e pela Think Tank Team (Chi Spectrum Qingyan). Ele se baseia em um modelo de difusão em cascata e gera imagens de alta resolução em vários estágios. Os principais recursos do CogView3 incluem geração em vários estágios, arquitetura inovadora e desempenho eficiente...
10 meses atrás
02.9K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: ferramenta de fala para legenda, cliente leve com interfaces integradas para Cutscene, Racer e Must-Cut

Introdução abrangente O AsrTools é uma ferramenta inteligente de conversão de voz em texto com interfaces integradas de grandes empresas, como Cutscene, QuickScope, MustCut etc. Não requer GPU nem configuração complicada e oferece suporte ao processamento eficiente de lotes com vários threads. Baseia-se no desenvolvimento do PyQt5, com uma interface bonita e amigável, capaz de gerar palavras nos formatos SRT e TXT...
10 meses atrás
04.2K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: ferramenta profissional de OCR para documentos multilíngues, implantação nativa de código aberto

Introdução abrangente O Surya é um kit de ferramentas de OCR de documentos multilíngues de código aberto que oferece suporte ao reconhecimento de texto em mais de 90 idiomas. Ele executa não apenas a detecção de texto linha por linha, mas também a análise de layout, a detecção da ordem de leitura e o reconhecimento de tabelas.
10 meses atrás
05.1K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

Inbox Zero: alcance facilmente zero e-mails em sua caixa de entrada, com a ajuda da IA para ajudá-lo a categorizar, filtrar e processar seus e-mails.

Descrição geral O Inbox Zero é um aplicativo de gerenciamento de e-mail de código aberto projetado para ajudar os usuários a obter rapidamente zero e-mails na caixa de entrada com um assistente de IA. O aplicativo oferece uma variedade de recursos, incluindo resposta automática, arquivamento, rotulagem e encaminhamento de e-mails, gerenciamento e cancelamento de assinatura de boletins informativos, bloqueio de e-mails frios, acompanhamento...
8 meses atrás
02.3K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks: notas reversas de cálculo oral de macacos pequenos, engenharia reversa e algoritmos de descriptografia

Introdução abrangente O Ape Mouth Calculator Reverse Notes é um projeto de código aberto que visa documentar e compartilhar o processo e os métodos de engenharia reversa do aplicativo Ape Mouth Calculator. O projeto contém uma variedade de ferramentas e técnicas reversas para usar as instruções, como Frida, dexdump etc., para ajudar os usuários a entender e decifrar a calculadora oral do macaco...
10 meses atrás
03.1K
XiaoYuanKouSuan_Auto:小猿口算自动答题工具,高效解决口算题目

XiaoYuanKouSuan_Auto: ferramenta automática de perguntas e respostas do XiaoYuanKouSuan, que resolve com eficiência tópicos de aritmética oral

Introdução abrangente A Ape Mouth Calculator Automatic Question Answer Tool é um projeto de código aberto baseado em Python, desenvolvido para resolver com eficiência as perguntas no aplicativo Ape Mouth Calculator por meio de reconhecimento de OCR e scripts de automação. A ferramenta usa tecnologias como OpenCV e Tesseract para poder identificar as perguntas na tela em tempo real...
10 meses atrás
02.8K
Cloud Document Converter:飞书文档下载插件,飞书云文档转换为本地Markdown格式文档

Cloud Document Converter: plug-in de download de documentos do Flying Book, conversão de documentos na nuvem do Flying Book para documentos locais no formato Markdown

Introdução geral O Cloud Document Converter é uma extensão do Chrome projetada para converter documentos em nuvem do Flying Book para o formato Markdown. Os usuários podem facilmente baixar ou copiar documentos em nuvem do Flying Book para o formato Markdown...
9 meses atrás
02.7K
QuickPiperAudiobook:一键生成自然音质的有声书,支持PDF、epub、docx等格式

QuickPiperAudiobook: uma chave para gerar audiolivros com qualidade de som natural, suporte para PDF, epub, docx e outros formatos

Introdução abrangente O QuickPiperAudiobook é um projeto de código aberto desenvolvido para converter vários formatos de texto (por exemplo, epub, mobi, txt, PDF, HTML etc.) em audiolivros com som natural por meio de um simples comando. A ferramenta usa o Pi...
10 meses atrás
02.8K
Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

Crawl4AI: ferramenta de rastreamento assíncrono da Web de código aberto para extrair dados estruturados sem LLM

Introdução abrangente O Crawl4AI é uma ferramenta de rastreamento assíncrono da Web de código aberto projetada para modelos de linguagem grande (LLMs) e aplicativos de inteligência artificial (IA). Ele simplifica o rastreamento da Web e o processo de extração de dados, oferece suporte ao rastreamento eficiente da Web e fornece formatos de saída compatíveis com LLM para...
9 meses atrás
03.8K
AIHawk:智能求职助手,自动化投放简历(限英文)

AIHawk: assistente inteligente de busca de emprego, colocação automatizada de currículos (somente em inglês)

Introdução geral O Auto_Jobs_Applier_AIHawk é uma ferramenta para automatizar a busca de empregos usando tecnologia de inteligência artificial. Ela ajuda os usuários a automatizar a entrega de um grande número de currículos em um curto período de tempo e a personalizá-los de acordo com suas informações pessoais e intenções de busca de emprego. A ferramenta foi projetada para aumentar...
8 meses atrás
03.5K
simple-one-api:一键集成多种免费大模型API,统一对外提供 OpenAI 接口

simple-one-api: integração com um clique de uma variedade de APIs de modelos grandes e gratuitos, interface OpenAI externa unificada

Introdução abrangente simple-one-api é um projeto de código aberto desenvolvido para simplificar a integração de várias APIs de modelo grande. Ele é compatível com APIs compatíveis com OpenAI, como Thousand Sails Big Model Platform, Xunfei Starfire Big Model, Tencent Mixed Element, MiniMax e Deep-Seek...
9 meses atrás
03.1K
VoAPI:高颜值的AI模型转发接口管理系统,官网每日提供免费API额度

VoAPI: sistema de gerenciamento de interface de encaminhamento de modelo de IA de alto valor, o site oficial oferece cota de API gratuita diariamente

Introdução abrangente O VoAPI é um novo sistema de gerenciamento e distribuição de interface de modelo de IA de alto perfil e alto desempenho, usado principalmente para canais de distribuição e gerenciamento interno pessoal ou empresarial. Desenvolvido com base na NewAPI, o sistema oferece módulos funcionais avançados e interface de usuário otimizada, com o objetivo de aprimorar...
9 meses atrás
02.8K
MockingBird:快速克隆声音与模型训练,基于 xtts v2 实现的文本转语音

MockingBird: clonagem rápida de voz e treinamento de modelos, conversão de texto em fala com base no xtts v2

Introdução abrangente O MockingBird é um projeto de código aberto que visa à clonagem rápida de fala e à conversão de texto em fala por meio da tecnologia de IA. Os usuários só precisam fornecer 5 segundos de amostras de voz, e você pode gerar qualquer conteúdo de voz. O projeto oferece suporte a uma variedade de conjuntos de dados chineses e, no Windows ...
8 meses atrás
03.4K
Clone Voice:支持多语言的少样本声音克隆工具,基于xtts_v2提供Windows一键安装包

Clone Voice: ferramenta de clonagem de voz sem amostras em vários idiomas baseada em xtts_v2 para Windows com instalador de um clique.

Descrição geral O Clone Voice é uma ferramenta de clonagem de som de código aberto que fornece uma interface baseada na Web que permite aos usuários clonar vozes usando qualquer som ou gravação de voz pessoal. A ferramenta é fácil de usar, mesmo sem uma GPU NVIDIA, e pode ser usada com um aplicativo pré-compilado...
10 meses atrás
03.4K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: geração dinâmica e dimensionável de texto para vídeo longo

Introdução abrangente O StreamingT2V é um projeto público desenvolvido pela equipe de pesquisa de IA da Picsart, focado na geração de vídeos longos coerentes, dinâmicos e dimensionáveis com base em descrições textuais. Essa tecnologia usa uma abordagem autorregressiva avançada que garante a consistência temporal do vídeo com o texto da descrição de forma rigorosa...
9 meses atrás
03K
Text2Video-Zero:Picsart AI Research团队发布的文本到视频零样本生成器

Text2Video-Zero: gerador de amostras zero de texto para vídeo lançado pela equipe de pesquisa de IA da Picsart

Introdução geral O Text2Video-Zero é uma implementação oficial de um gerador de texto para vídeo com amostra zero para o GitHub, desenvolvido pela equipe de pesquisa de IA da Picsart. O projeto oferece uma maneira de usar dicas de texto para gerar texto com consistência temporal e...
10 meses atrás
03.3K
Retrieval based Voice Conversion WebUI:基于检索的语音转换框架|模拟真人歌声

WebUI de conversão de voz com base em recuperação: uma estrutura para conversão de voz com base em recuperação e simulação de vozes cantadas na vida real

O Comprehensive Introduction Retrieval based Voice Conversion WebUI é uma estrutura de conversão de voz baseada em VITS fácil de usar que permite a conversão de voz entre quaisquer alto-falantes, inclusive covers de músicas e alterações de voz em tempo real. Ele tem baixo ...
10 meses atrás
03.6K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: ferramenta de clonagem de fala e conversão de texto em fala de código aberto com amostra zero

Introdução abrangente O VoiceCraft é uma ferramenta de edição de fala de código aberto e de síntese de fala de amostra zero baseada no modelo de linguagem do codec neural. Ele emprega um método inovador de geração de sequência codificada que permite operações de inserção, exclusão e substituição em sequências de fala existentes para gerar uma fala editada natural e coerente...
10 meses atrás
03.1K
edge-tts:文本转语音Python模块|免费文本转语音服务

edge-tts: módulo Python de conversão de texto em fala | Serviço gratuito de conversão de texto em fala

Descrição geral edge-tts é um módulo Python de código aberto que permite que os usuários usem o serviço de conversão de texto em fala on-line do Microsoft Edge no código Python sem a necessidade do navegador Microsoft Edge, do sistema operacional Windows ou do segredo da API...
10 meses atrás
04K
CoAI.Dev (Chat Nio):AI聚合应用 一站式 B/C 端解决方案,支持弹性计费和订阅计划模式

CoAI.Dev (Chat Nio): solução completa de B/C para aplicativos de agregação de IA com faturamento flexível e suporte ao modelo de plano de assinatura

Introdução geral O CoAI.Dev (antigo Chat Nio) é uma plataforma de bate-papo que integra vários modelos de IA e oferece suporte a streaming distribuído, geração de imagens, sincronização e compartilhamento de conversas entre dispositivos. Ele implementa um sistema de faturamento de assinatura e token, serviço de trânsito de chaves e vários...
9 meses atrás
03.4K
ChatOllama:基于Nuxt 3和Ollama的本地实时聊天应用UI

ChatOllama: interface de usuário nativa de aplicativo de bate-papo em tempo real baseada em Nuxt 3 e Ollama

Introdução abrangente O ChatOllama é um projeto de aplicativo de bate-papo on-line de código aberto baseado em um modelo de linguagem em grande escala (LLM), com suporte a vários modelos de linguagem e gerenciamento de base de conhecimento. Os usuários podem usar a plataforma para gerenciamento de modelos (exibição de lista, download, exclusão), bate-papo com modelos e outras funções. O projeto usa ...
10 meses atrás
03.3K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...
11 meses atrás
04.9K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net: uma ferramenta de código aberto para transpainting de fotos e vídeos para estilização de anime

Introdução geral O DCT-Net é um projeto de código aberto desenvolvido pela DAMO Academy e pelo Instituto de Tecnologia da Computação Wang Xuan, da Universidade de Pequim, que visa à transformação estilizada de imagens em anime. O projeto utiliza técnicas de aprendizagem profunda por meio da tradução calibrada por domínio (Domain-Calibrat...
7 meses atrás
03.2K
Diffusers Image Outpaint:超强开源AI图像扩展工具,图像外绘(image outpainting)

Diffusers Image Outpaint: ferramenta superpotente de código aberto de extensão de imagem AI, pintura de imagem (pintura de imagem)

Introdução geral Diffusers Image Outpaint é uma poderosa ferramenta de expansão de imagens de IA criada pelo membro da comunidade Hugging Face, fffiloni. A ferramenta utiliza técnicas avançadas de modelagem de difusão para trazer imagens para...
11 meses atrás
03.6K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI: projeto de navegação de ferramenta de IA leve e de código aberto

Introdução abrangente O Tap4 AI WebUI é um projeto de site de navegação de ferramentas de IA leve e de código aberto, projetado para ajudar os usuários a criar facilmente seu próprio catálogo de ferramentas de IA. O projeto usa o Next.js e a pilha de tecnologia Supabase, com suporte para otimização de SEO em vários idiomas, para fornecer...
10 meses atrás
03.1K
CodeFormer:图像与视频面部复原,老照片修复,提供一键部署版

CodeFormer: restauração facial de imagens e vídeos, restauração de fotos antigas, oferece versão de implantação com um clique

CodeFormer Introdução geral O CodeFormer é uma base de código para reparo robusto de faces cegas, desenvolvida por uma equipe de pesquisadores do S-Lab da Universidade Tecnológica de Nanyang e apresentada no NeurIPS 2022. O projeto utiliza um transformador de pesquisa de livro de código (C...
11 meses atrás
03.7K
Moshi:实时语音对话框架,支持多种语言和口音的语音对话基础模型

Moshi: uma estrutura de diálogo de fala em tempo real com suporte a vários idiomas e sotaques para modelos de base de diálogo de fala

Introdução geral O Moshi Chat é um assistente de voz de IA em tempo real de ponta a ponta da Kyutai, um laboratório francês de IA sem fins lucrativos. Ele não apenas ouve em tempo real, mas também se envolve em conversas naturais e oferece suporte a interações multimodais, incluindo a capacidade de ver, ouvir e falar.Moshi Ch...
11 meses atrás
02.9K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: sistema de perguntas e respostas da base de conhecimento local com fluxo de processamento de RAG altamente integrado

QAnything Introdução abrangente O QAnything (Question and Answer based on Anything) é um sistema local de perguntas e respostas baseado em conhecimento lançado pela NetEase, que suporta todos os tipos de formatos de arquivos e bancos de dados e pode ser instalado e usado off-line....
11 meses atrás
03K
ALog:便携AI语音日记应用,支持语音转文字。

ALog: aplicativo portátil de diário de voz com IA e suporte de fala para texto.

Introdução geral O ALog é um aplicativo de diário de voz baseado em IA projetado para ajudar os usuários a registrar suas vidas diárias por voz. Ele foi desenvolvido pela duxins e tem código aberto no GitHub. Os usuários podem gravar entradas de diário por meio de entrada de voz, e o aplicativo converterá automaticamente a voz em texto...
7 meses atrás
03.7K
OpenSPG:开源知识图谱引擎

OpenSPG: Mecanismo gráfico de conhecimento de código aberto

Introdução abrangente O OpenSPG é um mecanismo de gráfico de conhecimento de código aberto desenvolvido pelo Ant Group em colaboração com o OpenKG, com base na estrutura do SPG (Semantic Augmented Programmable Graph). O mecanismo foi projetado para fornecer recursos como representação semântica explícita, definição de regras lógicas e estrutura operacional para dar suporte à construção e ao gerenciamento de gráficos de conhecimento de domínio...
11 meses atrás
03.9K
Mem0:为AI助手和代理提供智能记忆层的开源项目

Mem0: um projeto de código aberto que fornece uma camada de memória inteligente para assistentes e agentes de IA

Introdução geral O Mem0 (pronuncia-se "mem-zero") é um projeto de código aberto que fornece uma camada de memória inteligente para assistentes e agentes de IA. Ele lembra as preferências do usuário, adapta-se às necessidades individuais e melhora com o tempo, o que o torna ideal para chatbots com suporte ao cliente, assistentes de IA e sistemas autônomos...
11 meses atrás
03.9K
GaiaNet node:安装和运行自己的本地模型在线代理服务

Nó GaiaNet: instale e execute seu próprio serviço de proxy on-line de modelo local

Introdução geral O GaiaNet-AI/gaianet-node é um projeto de código aberto que permite aos usuários instalar rapidamente a pilha de software de nó padrão no Mac, Linux ou Windows WSL com um único comando. Os usuários podem inicializar os nós, personalizar as configurações, fazer download...
11 meses atrás
02.8K
GOT-OCR2.0:基于 QWen2 0.5B 端到端的多模态OCR模型

GOT-OCR2.0: baseado no modelo de OCR multimodal de ponta a ponta QWen2 0.5B

Introdução abrangente O GOT-OCR2.0 é um modelo de reconhecimento óptico de caracteres (OCR) de código aberto co-proposto pela StepStar, cujo objetivo é impulsionar a tecnologia de OCR em direção ao OCR-2.0 por meio de um modelo unificado de ponta a ponta. O modelo oferece suporte a uma ampla variedade de tarefas de OCR, incluindo reconhecimento de texto normal, gr...
11 meses atrás
02.9K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine: Previsão da probabilidade de eventos futuros com base no conhecimento de pesquisa

Introdução geral O Forecast AI é uma excelente plataforma de previsão baseada em tecnologia avançada de inteligência artificial. Ela usa análises de dados poderosas e algoritmos de aprendizado de máquina para fornecer aos usuários previsões altamente precisas de eventos futuros. Quer se trate de eleições políticas, tendências econômicas ou eventos sociais, o Forecast ...
11 meses atrás
03.3K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS: ferramentas revolucionárias de geração de fala e clonagem de fala

Introdução abrangente O GPT-SoVITS é uma ferramenta de conversão e síntese de fala de código aberto que combina o modelo GPT e a tecnologia de troca de voz SoVITS. A ferramenta é compatível com a conversão de texto para fala em tempo real com zero e poucas amostras, e com a migração de estilo de voz com apenas 5 segundos de amostras de áudio. Seus recursos incluem a conversão entre idiomas ...
11 meses atrás
03.2K
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: ferramenta de conversão de texto em fala multilíngue rápida e controlável (com suporte para mais de 7.000 idiomas)

Introdução geral O IMS Toucan é um kit de ferramentas de conversão de texto em fala (TTS) de última geração desenvolvido pelo Instituto de Processamento de Linguagem Natural (IMS) da Universidade de Stuttgart, Alemanha. O kit de ferramentas é compatível com mais de 7.000 idiomas e é rápido, controlável e tem baixos requisitos de recursos computacionais.
6 meses atrás
03.2K
PaddleOCR:基于飞桨的多语言OCR工具库,支持80多种语言识别

PaddleOCR: uma biblioteca de ferramentas de OCR multilíngue baseada no Flying Paddle, com suporte ao reconhecimento de mais de 80 idiomas

Introdução abrangente O PaddleOCR é um kit de ferramentas de OCR multilíngue baseado no PaddlePaddle, projetado para fornecer um sistema de OCR prático e ultraleve. Ele é compatível com o reconhecimento de mais de 80 idiomas e oferece ferramentas de anotação e síntese de dados para...
8 meses atrás
03.7K
Deep Live Cam:开源的实时AI换脸工具,一张照片就能实现实时换脸直播

Deep Live Cam: ferramenta de troca de rosto de IA em tempo real de código aberto, uma foto para troca de rosto em tempo real

Introdução geral O Deep Live Cam é uma ferramenta de inteligência artificial de código aberto projetada para permitir a substituição de rostos em tempo real e a geração de vídeos falsos profundos a partir de uma única foto. Usando algoritmos avançados de aprendizagem profunda, a ferramenta é capaz de substituir rostos em tempo real durante a transmissão ao vivo ou chamadas de vídeo, protegendo a privacidade do usuário e adicionando diversão...
9 meses atrás
03.5K
NarratoAI:文本生成影视解说与自动化剪辑神器

NarratoAI: ferramenta de edição automatizada e narração de filmes e TV gerada por texto

Introdução geral O NarratoAI é uma ferramenta totalmente automatizada que integra narração de filmes e vídeos, edição automatizada, dublagem e geração de legendas. Ele se baseia na tecnologia de modelagem de linguagem em larga escala (LLM) para gerar automaticamente cópias e editar automaticamente vídeos com dublagens e legendas correspondentes, fornecendo aos usuários um...
11 meses atrás
03.3K
Vector Vein(向量脉络):无代码AI工作流构建平台

Vector Vein: plataforma de criação de fluxo de trabalho de IA sem código

Introdução abrangente O Vector Vein é uma plataforma de criação de fluxos de trabalho de IA sem código, projetada para ajudar os usuários a criar facilmente fluxos de trabalho inteligentes e automatizados. Sem necessidade de base de programação, os usuários podem simplesmente conectar vários módulos funcionais por meio de operações de arrastar e soltar para criar fluxos de trabalho de IA complexos...
8 meses atrás
02.9K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: ferramenta de animação para gerar retratos dinâmicos a partir de imagens estáticas e vídeos

Introdução geral O LivePortrait é uma ferramenta avançada de animação de retratos dinâmicos com IA desenvolvida pela Racer Technology. Ela utiliza a inovadora tecnologia de IA para transformar imagens estáticas em animações de vídeo vívidas. Independentemente de você usar fotos reais, estilos de animação ou retratos artísticos, o LivePo...
9 meses atrás
03.2K
PhiData:构建拥有记忆、知识和工具的AI智能体

PhiData: criando inteligências de IA com memória, conhecimento e ferramentas

Introdução abrangente O PhiData é uma estrutura projetada para desenvolver assistentes de IA inteligentes. Ele permite que os assistentes de IA se envolvam em conversas de longo prazo, forneçam contexto comercial preciso e realizem várias operações por meio de memória aprimorada, integração de conhecimento e recursos de invocação de ferramentas.
5 meses atrás
03.2K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: um modelo de geração de fala que imita a voz de uma pessoa real falando (pacote de aceleração de um clique do ChatTTS)

Introdução geral O ChatTTS é um modelo de fala generativo projetado para cenários de diálogo. Ele gera fala natural e expressiva, suporta vários idiomas e vários falantes e é adequado para diálogos interativos. O modelo faz isso prevendo e controlando recursos rítmicos refinados, como risos, pausas e interjeições, além de...
6 meses atrás
03.1K
MoneyPrinterPlus:一键生成短视频的AI工具,免费批量混剪

MoneyPrinterPlus: ferramenta de IA para gerar vídeos curtos com um clique, mixagem em lote gratuita

Introdução abrangente O MoneyPrinterPlus é um projeto de código aberto que visa gerar e misturar todos os tipos de vídeos curtos com um clique por meio da tecnologia de IA e publicá-los automaticamente em várias plataformas de vídeo, como Jieyin, Shutterbugs, Xiaohongshu e Video Number. A ferramenta oferece suporte a modelos de voz locais e baseados em nuvem, incluindo bate-papo...
11 meses atrás
03.5K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

Chatbot UI: um aplicativo de bate-papo com IA de código aberto que imita a interface e a funcionalidade do ChatGPT

Introdução geral O Chatbot UI é um projeto de código aberto criado para ajudar os desenvolvedores a criar interfaces de conversação personalizadas e inteligentes. O projeto fornece uma série de componentes de interface e recursos interativos que podem ser facilmente integrados ao sistema Chatbot existente para oferecer aos usuários um corpo de diálogo mais fluido e inteligente...
11 meses atrás
04.6K
GLIGEN GUI:精确控制图像元素位置,基于ComfyUI的直观图形界面

GUI GLIGEN: controle preciso da posição dos elementos da imagem, interface gráfica intuitiva baseada no ComfyUI

Introdução geral O GLIGEN GUI é uma interface gráfica intuitiva baseada no ComfyUI, projetada para simplificar o uso do modelo GLIGEN, um novo modelo de texto para imagem que permite a especificação precisa da posição dos objetos em uma imagem. Com o GLIGE...
11 meses atrás
02.7K
Easy Voice Toolkit:本地部署的AI语音工具箱

Easy Voice Toolkit: kit de ferramentas de voz com IA para implantação local

Introdução abrangente O Easy-Voice-Toolkit é um kit de ferramentas multifuncional baseado no Open Source Speech Project, que oferece uma ampla variedade de ferramentas de áudio automatizadas para reconhecimento de fala, transcrição de fala, conversão de fala, criação de conjuntos de dados e treinamento de modelos. Os usuários podem usar essas ferramentas de forma seletiva, conforme necessário...
11 meses atrás
03.4K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作

FaceFusion: Ferramenta de aprimoramento de troca de rosto em vídeo | Movimentos de boca em vídeo com sincronização de voz

Descrição geral O FaceFusion é uma plataforma de nuvem de última geração com troca e aprimoramento facial integrados, otimizada para troca de imagem para vídeo e imagem para imagem, com 5 modelos profissionais para garantir um resultado impecável. Além disso, ele realiza o aprimoramento facial com 7 modelos usando 3...
6 meses atrás
05.5K
Kotaemon:简单部署的开源多模态文档问答工具

Kotaemon: uma ferramenta de questionário de documentos multimodais de código aberto simples de implantar

Introdução geral O Kotaemon é uma ferramenta de perguntas e respostas de documentos de código aberto projetada para fornecer aos usuários finais e desenvolvedores a funcionalidade de perguntas e respostas com base no Retrieval Augmented Generation (RAG). O projeto foi desenvolvido pela Cinnamon e oferece suporte a vários provedores de API LLM (por exemplo, OpenA...
11 meses atrás
03.4K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos: ferramenta de código aberto para a criação de IDs com fotos inteligentes com IA

Introdução abrangente O HivisionIDPhotos é uma ferramenta leve de código aberto para produção de fotos de documentos com IA, capaz de identificar de forma inteligente a cena da foto do usuário e a codificação, para gerar uma foto de documento padrão de acordo com uma variedade de especificações. A ferramenta é compatível com cores e tamanhos de fundo personalizados e, no futuro, também lançará...
11 meses atrás
03.2K
Marker:快速将PDF转换为Markdown的开源工具

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Descrição geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos.
5 meses atrás
04.6K
SadTalker:让照片说话|嘴型同步音频|合成口型同步视频|免费数字人

SadTalker: Faça as fotos falarem | Áudio de sincronização de boca | Vídeo de sincronização de boca sintetizado | Pessoas digitais gratuitas

Introdução geral O SadTalker é uma ferramenta de código aberto que combina uma única foto de retrato com um arquivo de áudio para criar vídeos realistas de avatares falantes para uma ampla variedade de cenários, como mensagens personalizadas, conteúdo educacional e muito mais. Uso revolucionário de tecnologias de modelagem 3D, como ExpNet e PoseVA...
6 meses atrás
03.5K
VideoReTalking:音频驱动的嘴唇同步和视频编辑系统

VideoReTalking: sincronização labial acionada por áudio e sistema de edição de vídeo

Introdução geral O VideoReTalking é um sistema inovador que permite ao usuário gerar vídeos faciais sincronizados com os lábios com base no áudio de entrada, produzindo vídeos de saída de alta qualidade e sincronizados com os lábios, mesmo com emoções diferentes. O sistema divide esse objetivo em três tarefas consecutivas: com expressões típicas...
8 meses atrás
03.4K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: Estrutura completa de geração de vídeo humano digital | Retrato para vídeo | Pose para vídeo | Sincronização labial

Introdução geral O MuseV é um projeto público no GitHub que visa à geração de vídeos de avatar com duração ilimitada e alta fidelidade. Ele se baseia na tecnologia de difusão e fornece Image2Video, Text2Image2Video, Video2Video...
8 meses atrás
05.6K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Não estruturado: documentos não estruturados de pré-processamento de código aberto, ferramentas de processamento de dados não estruturados

Introdução abrangente O Unstructured-IO fornece um conjunto de componentes de código aberto para processamento e pré-processamento de imagens e documentos de texto, como PDF, HTML, documentos do Word etc. Seu principal objetivo é simplificar e otimizar os fluxos de trabalho de processamento de dados, especialmente para modelos de linguagem grandes (LL...
11 meses atrás
03.4K
magic-html:从HTML网址中提取主体数据,输出纯文本/markdown

magic-html: extrai dados do corpo do URL HTML, produz texto simples/markdown

Introdução geral magic-html é uma biblioteca Python projetada para simplificar o processo de extração do conteúdo da região do corpo do HTML. Seja lidando com estruturas complexas de HTML ou com páginas da Web simples, essa biblioteca tem como objetivo fornecer uma interface conveniente e eficiente para os usuários. Ela oferece suporte à extração multimodal...
11 meses atrás
02.8K
WebPilot:智能网页信息处理工具,网页内容抓取免费API

WebPilot: ferramenta inteligente de processamento de informações da Web, API gratuita para captura de conteúdo da Web

WebPilot Introdução geral O Webpilot é um "assistente da Web" gratuito e de código aberto que permite que você se comunique livremente com qualquer página da Web ou execute tarefas automatizadas. Não é necessário alternar entre páginas ou copiar e colar, basta selecionar o texto ou digitar comandos e o Webpilot...
12 meses atrás
03.7K
DB-GPT:构建AI原生数据应用开发框架,集成多模型管理与智能数据处理

DB-GPT: criação de uma estrutura de desenvolvimento de aplicativos de dados nativos de IA, integrando gerenciamento de vários modelos e processamento inteligente de dados

Introdução abrangente O DB-GPT é uma estrutura de desenvolvimento de aplicativos de dados nativos de IA de código aberto criada usando AWEL (Agentic Workflow Expression Language) e tecnologias de corpo inteligente. O projeto tem como objetivo criar uma infraestrutura no campo de grandes modelos...
5 meses atrás
03K
DreamTalk:使用一张头像图片即可生成表情丰富的说话视频

DreamTalk: Gere vídeos de conversação expressivos com uma única imagem de avatar!

DreamTalk Introdução abrangente O DreamTalk é uma estrutura de geração de cabeças falantes de expressão orientada por modelos de difusão desenvolvida em conjunto pela Universidade de Tsinghua, pelo Grupo Alibaba e pela Universidade de Ciência e Tecnologia de Huazhong. Ele consiste principalmente de três partes: uma rede de redução de ruído, um especialista em lábios com reconhecimento de estilo e um preditor de estilo, que pode ser baseado em...
8 meses atrás
03.2K
InstantID:上传一张图片,迁移人像特征来生成不同风格图片

InstantID: carregue uma imagem e migre os recursos de retrato para gerar diferentes estilos de imagens

Introdução abrangente O InstantID é uma tecnologia avançada voltada para a geração de imagens com estilos ou poses personalizados em segundos, garantindo um alto nível de fidelidade com o uso de uma única imagem de referência de identificação. A tecnologia usa uma solução baseada em um modelo de difusão, integrando imagens faciais, mapas de pontos de referência...
12 meses atrás
02.8K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI Portrait Master versão chinesa: ferramenta de palavras-chave para otimizar a geração de retratos

Introdução geral A versão chinesa do ComfyUI Portrait Master é uma ferramenta de geração de palavras-chave de retratos projetada para criadores de imagens de IA. A ferramenta ajuda os usuários a gerar retratos de alta qualidade, otimizando as palavras-chave. Os usuários podem escolher diferentes lentes de acordo com a demanda...
12 meses atrás
03.8K
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint: ferramenta completa de processamento de imagens de IA, apagando, expandindo, substituindo elementos e desenhando texto.

Introdução geral O IOPaint é uma ferramenta de processamento de imagens de IA gratuita e de código aberto que oferece suporte ao apagamento, reparo e expansão de imagens. Ele usa modelos de IA de última geração para ajudar os usuários a remover facilmente objetos indesejados de imagens, reparar falhas, adicionar novo conteúdo e até mesmo expandir imagens.
10 meses atrás
015.3K