Projeto de código aberto de IA

Total de 1020 artigos
IOPaint:全能AI图像处理工具,擦除、扩图、替换元素与绘制文本

IOPaint: ferramenta completa de processamento de imagens de IA, apagando, expandindo, substituindo elementos e desenhando texto.

Introdução geral O IOPaint é uma ferramenta de processamento de imagens de IA gratuita e de código aberto que oferece suporte ao apagamento, reparo e expansão de imagens. Ele usa modelos de IA de última geração para ajudar os usuários a remover facilmente objetos indesejados de imagens, reparar falhas, adicionar novo conteúdo e até mesmo expandir imagens.
10 meses atrás
011.2K
Auto-Deep-Research:多Agent协作执行文献查询并生成研究报告

Auto-Deep-Research: colaboração de vários agentes para realizar consultas à literatura e gerar relatórios de pesquisa

Introdução geral O Auto-Deep-Research é uma ferramenta de IA de código aberto desenvolvida pelo Laboratório de Inteligência de Dados da Universidade de Hong Kong (HKUDS), cujo objetivo é ajudar os usuários a automatizar tarefas de pesquisa profunda. Ela foi desenvolvida com base na estrutura do AutoAgent e oferece suporte a vários modelos de linguagem grandes...
4 meses atrás
04.6K
Cherry Studio:集成API/Web/本地模型的AI助手桌面客户端

Cherry Studio: cliente de desktop para assistentes de IA com modelos integrados de API/Web/local

Introdução geral O Cherry Studio é um cliente de desktop que oferece suporte a uma ampla variedade de serviços do Large Language Model (LLM) e é compatível com os sistemas Windows, Mac e Linux. Ele oferece uma grande variedade de opções de personalização e recursos de ponta projetados para ajudar os usuários em uma grande variedade de locais...
6 meses atrás
04.3K
Riona-AI-Agent:社交媒体自动化互动智能体,自动搜索、点赞、留言

Riona-AI-Agent: inteligências interativas automatizadas de mídia social que pesquisam, curtem e deixam mensagens automaticamente

Introdução geral O Riona-AI-Agent é uma ferramenta inovadora de automação alimentada por IA, projetada especificamente para gerenciar e otimizar as operações das principais plataformas de mídia social. O projeto utiliza modelos avançados de IA para plataformas como Instagram, Twitter e GitHub para fornecer...
6 meses atrás
04.2K
FaceFusion:视频换脸增强工具|语音同步视频嘴型动作

FaceFusion: Ferramenta de aprimoramento de troca de rosto em vídeo | Movimentos de boca em vídeo com sincronização de voz

Descrição geral O FaceFusion é uma plataforma de nuvem de última geração com troca e aprimoramento facial integrados, otimizada para troca de imagem para vídeo e imagem para imagem, com 5 modelos profissionais para garantir um resultado impecável. Além disso, ele realiza o aprimoramento facial com 7 modelos usando 3...
6 meses atrás
04.1K
CosyVoice:阿里推出的3秒急速语音克隆开源项目,支持情感控制标签

CosyVoice: projeto de código aberto de clonagem de voz de 3 segundos lançado por Ali com suporte para tags controladas emocionalmente

Introdução abrangente O CosyVoice é um modelo multilíngue de geração de fala em larga escala que oferece recursos de pilha completa, desde a inferência, o treinamento até a implantação. Desenvolvido pela equipe do FunAudioLLM, ele tem como objetivo obter uma fala de alta qualidade por meio de transformadores autorregressivos avançados e modelos de difusão baseados em ODE...
6 meses atrás
04K
EXO:利用闲置家用设备运行分布式AI集群,支持多种推理引擎和自动设备发现。

EXO: execução de clusters de IA distribuídos usando dispositivos domésticos ociosos, com suporte a vários mecanismos de inferência e descoberta automatizada de dispositivos.

Introdução geral O Exo é um projeto de código aberto desenvolvido para executar seu próprio cluster de IA usando dispositivos cotidianos (por exemplo, iPhone, iPad, Android, Mac, Linux etc.). Por meio do particionamento dinâmico de modelos e da descoberta automatizada de dispositivos, o Exo é capaz de unificar vários dispositivos em um único...
8 meses atrás
03.4K
cognee:基于知识图谱构建的RAG开源框架,核心prompts学习

cognee: uma estrutura de código aberto para a construção de RAGs com base em gráficos de conhecimento, aprendizagem de prompts centrais

Introdução geral O Cognee é uma solução de camada de dados confiável projetada para aplicativos de IA e agentes de IA. Projetado para carregar e construir contextos LLM (Large Language Models) para criar soluções de IA precisas e interpretáveis por meio de gráficos de conhecimento e armazenamentos de vetores. A estrutura favorece a economia de custos, a interpretação...
7 meses atrás
03.4K
OpenHands:AI 驱动的软件开发多智能代理助手,覆盖开发者各类操作

OpenHands: assistente de agente multiinteligente orientado por IA para desenvolvimento de software, abrangendo todos os tipos de operações de desenvolvedor

Introdução geral O OpenHands é um projeto de código aberto desenvolvido pela equipe da All-Hands-AI para simplificar o processo de desenvolvimento de software por meio da tecnologia de IA. Anteriormente conhecida como OpenDevin e agora renomeada como OpenHands, a plataforma oferece...
7 meses atrás
03.4K
视频分析工具(Video Analyzer):分析视频内容并生成详细描述

Video Analyzer: analisa o conteúdo do vídeo e gera descrições detalhadas

O Comprehensive Introduction Video Analyzer é uma ferramenta abrangente de análise de vídeo que combina visão computacional, transcrição de áudio e técnicas de processamento de linguagem natural para gerar descrições detalhadas do conteúdo do vídeo. A ferramenta transcreve o conteúdo de áudio extraindo quadros-chave do vídeo...
6 meses atrás
03.4K
MuseV+Muse Talk:完整数字人视频生成框架|人像转视频|姿态转视频|唇形同步

MuseV+Muse Talk: Estrutura completa de geração de vídeo humano digital | Retrato para vídeo | Pose para vídeo | Sincronização labial

Introdução geral O MuseV é um projeto público no GitHub que visa à geração de vídeos de avatar com duração ilimitada e alta fidelidade. Ele se baseia na tecnologia de difusão e fornece Image2Video, Text2Image2Video, Video2Video...
8 meses atrás
03.4K
Cobalt:万能视频下载器,YouTube、Vimeo、Twitter、Reddit、SoundCloud等

Cobalt: downloader de vídeo universal, YouTube, Vimeo, Twitter, Reddit, SoundCloud e muito mais!

Introdução geral Muitas vezes preciso baixar vídeos do YouTube e do Twitter, por isso encontrei esse downloader de vídeo gratuito e sem anúncios. O Cobalt é um downloader de mídia de código aberto projetado para proporcionar uma experiência de download fácil de usar. Ele suporta o download de conteúdo de vídeo e áudio de várias plataformas, incluindo...
8 meses atrás
03.4K
Page Assist:本地AI模型对话与检索文档的网页助手插件

Page Assist: plug-in de assistente da Web para diálogo de modelo de IA nativo e recuperação de documentos

Introdução geral O Page Assist é uma extensão de navegador de código aberto criada para oferecer aos usuários uma maneira fácil de interagir com modelos locais de IA. Com essa extensão, os usuários podem abrir uma barra lateral em qualquer página da Web para interagir com modelos de IA em execução localmente.Page Assi...
4 meses atrás
03.3K
Dify:生成式AI应用开发平台,可视化编排, 支持私有化部署

Dify: plataforma de desenvolvimento de aplicativos de IA generativa, orquestração visual, suporte à implantação privada

Introdução abrangente A Dify é uma plataforma de desenvolvimento de aplicativos de IA generativa de código aberto projetada para ajudar os desenvolvedores a criar e operar rapidamente aplicativos de IA nativos com base em LLMs (Large Language Models). A plataforma oferece tudo, desde a criação de agentes até a orquestração do fluxo de trabalho de IA, recuperação de RAG...
7 meses atrás
03.3K
GitDiagram:可视化GitHub代码库结构,将代码仓库转换为交互式系统架构图

GitDiagram: visualize a estrutura da sua base de código do GitHub e transforme seu repositório de código em um diagrama interativo da arquitetura do sistema.

Introdução geral O GitDiagram é uma ferramenta inovadora de visualização da base de código do GitHub que transforma rapidamente qualquer repositório do GitHub em um diagrama interativo da arquitetura do sistema. Ele usa tecnologia avançada de IA (Claude 3.5 Sonnet) para fornecer aos desenvolvedores...
7 meses atrás
03.3K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece um software Strea...
7 meses atrás
03.2K
Continue:与VS Code集成并自定义模型和embedding的开源AI代码助手

Continue: um assistente de código de IA de código aberto que se integra ao VS Code e personaliza modelos e incorporação

Introdução geral O Continue é um assistente de código de IA de código aberto projetado para melhorar a eficiência dos desenvolvedores de software. Seus principais recursos incluem autocompletar código, otimização de código e sugestões inteligentes de código para os IDEs VS Code e JetBrains.O Continue faz...
6 meses atrás
03.2K
Wav2Lip:开源高精度口型同步生成工具(推荐)

Wav2Lip: ferramenta de código aberto de geração de sincronização labial de alta precisão (recomendado)

Introdução geral O Wav2Lip é uma ferramenta de código aberto de geração de sincronização labial de alta precisão, projetada para sincronizar com precisão o áudio arbitrário com a sincronização labial em vídeo. A ferramenta foi desenvolvida por Rudrabha Mukhopadhyay et al. na ACM Multimedia 20...
7 meses atrás
03.2K
Browser Use Web UI:运行AI智能体浏览网页,让AI能够自动操作网页的开源框架

Browser Use Web UI: uma estrutura de código aberto para executar inteligências de IA para navegar na Web, permitindo que a IA manipule automaticamente as páginas da Web

Introdução geral A interface do usuário da Web do Browser Use é um projeto inovador de código aberto que se concentra em fornecer aos agentes de IA recursos de interação com o navegador como uma ferramenta de interface gráfica. O projeto foi desenvolvido com base na estrutura principal do Browser Use, desenvolvida com o Gradio ...
2 meses atrás
03.2K
Smolagents: projeto de código aberto para desenvolvimento rápido de inteligências de IA e construção leve de inteligências

Smolagents: projeto de código aberto para desenvolvimento rápido de inteligências de IA e construção leve de inteligências

Introdução abrangente Smolagents é uma biblioteca de agente inteligente leve desenvolvida pela HuggingFace que se concentra em simplificar o processo de desenvolvimento de sistemas de agente de IA. O projeto é conhecido por sua simplicidade na filosofia de design, com apenas cerca de 1.000 linhas de código principal, mas oferece recursos avançados de integração de recursos. Ele é mais ...
7 meses atrás
03.2K
Screenshot to Code:将截图转换为干净前端代码的AI工具

Screenshot to Code: ferramenta de IA para converter capturas de tela em código de front-end limpo

Introdução geral O Screenshot-to-Code é uma ferramenta de código aberto que usa inteligência artificial para converter capturas de tela, rascunhos de design e designs do Figma em código limpo e funcional. A ferramenta é compatível com várias pilhas de tecnologia de front-end, incluindo HTML, Tailwind CS...
9 meses atrás
03.2K
Easy-Wav2Lip:高质量视频唇同步的工具,优化版Wav2Lip

Easy-Wav2Lip: ferramenta para sincronização labial de vídeo de alta qualidade, otimizada para Wav2Lip

Introdução geral O Easy-Wav2Lip é uma ferramenta aprimorada baseada no Wav2Lip, projetada para simplificar o processo de sincronização labial de vídeo. A ferramenta oferece uma configuração e implementação mais simples, com suporte para o Google Colab e instalação local. Ao otimizar o algoritmo, o Ea...
8 meses atrás
03.2K
PDFMathTranslate:保留PDF完整排版的AI翻译工具

PDFMathTranslate: ferramenta de tradução de IA que preserva a tipografia completa dos PDFs

Introdução abrangente O PDFMathTranslate é uma ferramenta de código aberto voltada para a tradução de artigos científicos. Os documentos PDF podem ser traduzidos na íntegra e gerar uma versão bilíngue. Ele usa tecnologia de IA para manter o layout completo do documento original, incluindo fórmulas, diagramas, índices e notas, suporte ...
2 meses atrás
03.1K
HeyGem:硅基智能开源的 Heygen 数字人平替产品

HeyGem: Produto de almofada de alfinetes humana digital Heygen de código aberto da Silicon Intelligence

Introdução geral O HeyGem é uma ferramenta de composição de vídeo totalmente off-line projetada para sistemas Windows, desenvolvida pela equipe do GuijiAI (Silicon Intelligence) e com código aberto no GitHub. Ele usa algoritmos avançados de IA para clonar com precisão a aparência e a voz do usuário...
2 meses atrás
03.1K
PraisonAI:低代码多智能体框架,简化复杂任务的自动化解决方案

PraisonAI: uma estrutura de corpo multiinteligente de baixo código para simplificar as soluções de automação para tarefas complexas

Introdução abrangente O PraisonAI é uma estrutura de corpo de inteligência múltipla pronta para uso em ambientes de produção, projetada para criar inteligências de IA para automatizar e resolver problemas que variam de tarefas simples a desafios complexos. A estrutura oferece uma solução de baixo código que simplifica a criação de sistemas LLM de corpo multiinteligente e...
6 meses atrás
03K
Browser-Use:构建智能网页自动化工具,让AI智能体轻松操作浏览器

Browser-Use: criação de ferramentas inteligentes de automação da Web para que os inteligentes de IA operem facilmente os navegadores

Introdução abrangente O Browser-Use é uma ferramenta inovadora de automação da Web de código aberto, projetada especificamente para permitir que os modelos de linguagem (LLMs) interajam naturalmente com os sites. Ele oferece uma estrutura avançada e flexível que suporta uma ampla variedade de modelos de linguagem convencionais, incluindo GPT-4, Claud...
8 meses atrás
03K
OpenBB:开源金融数据分析平台,集成私有数据集和 AI 来增强投资决策

OpenBB: plataforma de análise de dados financeiros de código aberto que integra conjuntos de dados privados e IA para aprimorar a tomada de decisões de investimento

Introdução geral O OpenBB é uma plataforma de análise de dados financeiros gratuita e totalmente de código aberto, projetada para fornecer acesso fácil a dados financeiros e ferramentas de análise para todos. A plataforma integra mais de 100 fontes de dados diferentes que abrangem ações, opções, criptomoedas, forex, indicadores macroeconômicos, índices...
7 meses atrás
03K
FunASR:开源语音识别工具包,说话人分离/ 多人对话语音识别

FunASR: kit de ferramentas de reconhecimento de fala de código aberto, separação de locutor / reconhecimento de fala de diálogo com várias pessoas

Introdução abrangente O FunASR é um kit de ferramentas de reconhecimento de fala de código aberto desenvolvido pelo Alibaba Dharma Institute, com o objetivo de unir pesquisa acadêmica e aplicações industriais. Ele suporta uma ampla gama de recursos de reconhecimento de fala, incluindo reconhecimento de fala (ASR), detecção de ponto final de voz (VAD), recuperação de pontuação, modelagem de linguagem, fala...
10 meses atrás
03K
TableGPT2:表格数据集成的多模态模型

TableGPT2: um modelo multimodal para integração de dados tabulares

Introdução abrangente O TableGPT2 é um modelo multimodal desenvolvido por uma equipe da Universidade de Zhejiang, com foco na integração e no processamento de dados tabulares. O modelo é pré-treinado e ajustado para ter um bom desempenho em tarefas relacionadas a dados de tabela, mantendo, ao mesmo tempo, fortes recursos de linguagem e codificação de uso geral.
9 meses atrás
03K
Paperless-AI:使用AI自动分析和标记文档,适用 paperless-ngx 文档管理系统

Paperless-AI: análise e marcação automática de documentos usando IA para o sistema de gerenciamento de documentos paperless-ngx

Introdução geral O Paperless-AI é uma ferramenta inovadora de análise de automação de documentos projetada especificamente para o sistema de gerenciamento de documentos Paperless-ngx. Ela combina de forma inteligente a API OpenAI com uma variedade de modelos avançados de IA, como o Ollama...
7 meses atrás
03K
ComfyUI Portrait Master 中文版:优化肖像生成的提示词工具

ComfyUI Portrait Master versão chinesa: ferramenta de palavras-chave para otimizar a geração de retratos

Introdução geral A versão chinesa do ComfyUI Portrait Master é uma ferramenta de geração de palavras-chave de retratos projetada para criadores de imagens de IA. A ferramenta ajuda os usuários a gerar retratos de alta qualidade, otimizando as palavras-chave. Os usuários podem escolher diferentes lentes de acordo com a demanda...
11 meses atrás
03K
AsrTools:语音转字幕工具,内置剪映、快手、必剪接口的轻量客户端

AsrTools: ferramenta de fala para legenda, cliente leve com interfaces integradas para Cutscene, Racer e Must-Cut

Introdução abrangente O AsrTools é uma ferramenta inteligente de conversão de voz em texto com interfaces integradas de grandes empresas, como Cutscene, QuickScope, MustCut etc. Não requer GPU nem configuração complicada e oferece suporte ao processamento eficiente de lotes com vários threads. Baseia-se no desenvolvimento do PyQt5, com uma interface bonita e amigável, capaz de gerar palavras nos formatos SRT e TXT...
10 meses atrás
03K
Marker:快速将PDF转换为Markdown的开源工具

Marker: converta rapidamente PDF em ferramentas de código aberto Markdown

Descrição geral O Marker é uma ferramenta de processamento de documentos baseada em aprendizagem profunda, projetada para converter arquivos PDF para o formato Markdown com rapidez e precisão. Ele oferece suporte a uma ampla variedade de tipos de documentos e é especialmente otimizado para a conversão de livros e artigos científicos.
5 meses atrás
02.9K
腾讯混元3D(Hunyuan3D):生成高分辨率3D资产,多种3D素材生成工作流

Tencent Hybrid 3D (Hunyuan3D): geração de ativos 3D de alta resolução, vários fluxos de trabalho de geração de material 3D

Introdução abrangente O Tencent Hunyuan3D (Hunyuan3D 2.0) é um sistema avançado de composição 3D em grande escala da Tencent, projetado para gerar ativos 3D texturizados de alta resolução. O sistema consiste em dois componentes principais: Hunyuan3D-DiT, um modelo de geração de formas em grande escala, e Hunyuan3D-DiT, uma textura em grande escala...
7 meses atrás
02.9K
Memary:利用知识图谱增强Agent长期记忆的开源项目

Memary: um projeto de código aberto para aprimorar a memória de longo prazo do agente usando gráficos de conhecimento

Introdução geral O Memary é um projeto inovador de código aberto voltado para o fornecimento de soluções de gerenciamento de memória de longo prazo para inteligências autônomas. O projeto ajuda as inteligências a romper as limitações das janelas de contexto tradicionais para obter experiências de interação mais inteligentes por meio de gráficos de conhecimento e módulos de memória especializados.
7 meses atrás
02.9K
Surya:专业多语言文档OCR工具,开源本地部署

Surya: ferramenta profissional de OCR para documentos multilíngues, implantação nativa de código aberto

Introdução abrangente O Surya é um kit de ferramentas de OCR de documentos multilíngues de código aberto que oferece suporte ao reconhecimento de texto em mais de 90 idiomas. Ele executa não apenas a detecção de texto linha por linha, mas também a análise de layout, a detecção da ordem de leitura e o reconhecimento de tabelas.
10 meses atrás
02.9K
ElizaOS:构建自主执行的多智能体,功能完备的开源AI智能体开发框架

ElizaOS: criação de multiinteligentes de execução autônoma, uma estrutura de desenvolvimento de corpo inteligente de IA de código aberto totalmente funcional

Introdução abrangente O Eliza é uma estrutura avançada de desenvolvimento de corpos inteligentes múltiplos (Multi-Agent), comprometida em simplificar a construção e a implementação do processo de corpos inteligentes autônomos (Autonomous Agent). Ele oferece suporte à implementação de vários corpos inteligentes com diferentes configurações de função, podendo ...
7 meses atrás
02.9K
AI Hedge Fund:开源自动化交易系统,利用多智能体进行复杂对冲基金交易决策

AI Hedge Fund: sistema de negociação automatizado de código aberto que usa várias inteligências para tomar decisões complexas de negociação de fundos de hedge

Introdução geral O AI Hedge Fund é um fundo de hedge de inteligência artificial que utiliza um sistema multiagente para tomar decisões de negociação. O sistema trabalha em conjunto com vários agentes especializados, incluindo agentes de dados de mercado, agentes quantitativos, agentes de gerenciamento de risco e agentes de gerenciamento de portfólio, para realizar negociações complexas...
7 meses atrás
02.9K
Langflow:构建强大AI智能体和工作流的低代码工具

Langflow: uma ferramenta de baixo código para criar fluxos de trabalho e inteligências de IA avançados

Introdução geral O Langflow é uma ferramenta de baixo código projetada para que os desenvolvedores criem agentes e fluxos de trabalho de IA avançados. Ele suporta o uso de qualquer API, modelo ou banco de dados, simplificando o desenvolvimento de aplicativos complexos de IA.
8 meses atrás
02.9K
Chatbot UI:模仿ChatGPT界面和功能的开源AI聊天应用程序

Chatbot UI: um aplicativo de bate-papo com IA de código aberto que imita a interface e a funcionalidade do ChatGPT

Introdução geral O Chatbot UI é um projeto de código aberto criado para ajudar os desenvolvedores a criar interfaces de conversação personalizadas e inteligentes. O projeto fornece uma série de componentes de interface e recursos interativos que podem ser facilmente integrados ao sistema Chatbot existente para oferecer aos usuários um corpo de diálogo mais fluido e inteligente...
11 meses atrás
02.9K
Text generation web UI:基于 Gradio 大语言模型聊天界面,支持多种后端服务

UI da Web de geração de texto: interface de bate-papo de modelo de linguagem grande baseada em Gradio com suporte para vários serviços de back-end

Introdução geral A UI da Web de geração de texto é uma UI da Web baseada em Gradio projetada para o Modelo de linguagem grande (LLM). Ela oferece suporte a uma variedade de back-ends de geração de texto, incluindo Transformers, llama.cp...
9 meses atrás
02.9K
AI Chatbot Supabase:开源的Next.js和Supabase构建的AI聊天机器人,快速部署到Vercel。

AI Chatbot Supabase: o Next.js de código aberto e o Supabase criaram um chatbot de IA para rápida implementação na Vercel.

Introdução geral O AI Chatbot Supabase é um modelo de chatbot de IA de código aberto criado com base no Next.js e no Supabase. Desenvolvido pela Vercel, o projeto tem como objetivo fornecer uma solução de chatbot totalmente funcional e personalizável. Por ...
8 meses atrás
02.9K
OpenAI Realtime Agents:多智能体语音交互应用(OpenAI示例)

Agentes em tempo real da OpenAI: um aplicativo de interação de fala corporal multiinteligente (exemplo da OpenAI)

Introdução geral O OpenAI Realtime Agents é um projeto de código aberto que tem como objetivo mostrar como a API em tempo real do OpenAI pode ser usada para criar aplicativos de fala corporal multiinteligentes. Ele fornece um modelo de corpo inteligente de alto nível (emprestado do OpenAI Swarm) que permite...
7 meses atrás
02.9K
RAGFlow:基于深度文档理解的开源RAG引擎,提供高效的检索增强生成工作流

RAGFlow: um mecanismo RAG de código aberto baseado na compreensão profunda de documentos, fornecendo fluxos de trabalho de geração aprimorados por recuperação eficientes

Introdução abrangente O RAGFlow é um mecanismo RAG (Retrieval Augmented Generation) de código aberto baseado na tecnologia de compreensão profunda de documentos. Ele fornece um fluxo de trabalho RAG eficiente para empresas de todos os portes, incorporando um modelo de linguagem em grande escala (LLM) que pode fornecer dados em formatos complexos com base em...
7 meses atrás
02.9K
KAG:知识图谱与向量混合检索的专业知识库问答框架

KAG: uma estrutura de perguntas e respostas de base de conhecimento profissional para recuperação híbrida de gráficos de conhecimento e vetores

Introdução abrangente O KAG (Knowledge Augmented Generation) é uma estrutura de raciocínio e recuperação orientada por forma lógica baseada no mecanismo OpenSPG e em modelos de linguagem ampla (LLMs). A estrutura foi projetada especificamente para criar bases de conhecimento de domínio profissional...
8 meses atrás
02.8K
DeOldify:使用AI技术为黑白照片和视频上色的经典开源工具

DeOldify: a ferramenta clássica de código aberto para colorir fotos e vídeos em preto e branco usando técnicas de IA

Introdução abrangente O DeOldify é um projeto de código aberto baseado na tecnologia de aprendizagem profunda dedicada à coloração inteligente e à restauração de fotos e vídeos em preto e branco. O projeto usa um método inovador de treinamento NoGAN para resolver com êxito os defeitos comuns das redes GAN tradicionais no processo de coloração de imagens...
8 meses atrás
02.8K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: extração e conversão de documentos PDF para o formato Markdown multimodal, suporte à digitalização OCR de e-books

Introdução abrangente O MinerU é uma ferramenta de extração de dados de código aberto desenvolvida pela equipe do OpenDataLab no Laboratório de Inteligência Artificial de Xangai, com foco na extração eficiente de conteúdo de documentos PDF complexos, páginas da Web e eBooks. Ele é capaz de obter PDFs multimodais contendo imagens, fórmulas, tabelas e outros elementos...
10 meses atrás
02.8K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Converta rapidamente repositórios de código do Github em texto adequado para compreensão do LLM

Introdução geral O GitIngest é uma ferramenta de código aberto projetada para transformar repositórios de código do GitHub em texto adequado para dicas do Modelo de Linguagem Grande (LLM). Com uma operação simples, os usuários podem extrair e formatar o conteúdo de qualquer repositório do GitHub para se adequar ao LLM ...
8 meses atrás
02.8K
AutoGen Studio:多代理系统AutoGen的简易用户界面版

AutoGen Studio: versão de interface fácil de usar do sistema multiagente AutoGen

Descrição geral O AutoGen Studio 2.0 é uma interface de usuário desenvolvida pelo AutoGen para simplificar o processo de criação e gerenciamento de soluções multiagentes. A plataforma permite que os usuários definam e modifiquem declarativamente os agentes e seus fluxos de trabalho por meio de uma interface intuitiva...
7 meses atrás
02.8K
LLPlayer:生成实时字幕并双语翻译的视频播放器

LLPlayer: reprodutor de vídeo que gera legendas em tempo real com tradução bilíngue

Introdução geral O LLPlayer é um reprodutor de mídia de código aberto para alunos de idiomas, hospedado no GitHub e criado pelo desenvolvedor umlx5h. Ele integra uma variedade de recursos úteis, como exibição de legendas bilíngues, legendas geradas automaticamente por IA, tradução em tempo real e pesquisa de palavras...
2 meses atrás
02.8K
BuffGPT:企业级生成式AI应用低代码开发平台

BuffGPT: uma plataforma de desenvolvimento com pouco código para aplicativos de IA generativa de nível empresarial

Introdução abrangente O BuffGPT é uma plataforma de desenvolvimento de aplicativos de IA de código aberto baseada no Modelo de Linguagem Grande (LLM), que oferece recursos prontos para uso, como processamento de dados, invocação de modelos, recuperação de RAG e orquestração de fluxo de trabalho visual para ajudar os usuários a criar e operar facilmente aplicativos de IA generativa. A plataforma oferece suporte a...
5 meses atrás
02.8K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Introdução geral O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). O projeto foi desenvolvido pela Lumina...
8 meses atrás
02.8K
edge-tts:文本转语音Python模块|免费文本转语音服务

edge-tts: módulo Python de conversão de texto em fala | Serviço gratuito de conversão de texto em fala

Descrição geral edge-tts é um módulo Python de código aberto que permite que os usuários usem o serviço de conversão de texto em fala on-line do Microsoft Edge no código Python sem a necessidade do navegador Microsoft Edge, do sistema operacional Windows ou do segredo da API...
10 meses atrás
02.7K
Crawl4AI:开源的异步网页爬虫工具,无需LLM提取结构化数据

Crawl4AI: ferramenta de rastreamento assíncrono da Web de código aberto para extrair dados estruturados sem LLM

Introdução abrangente O Crawl4AI é uma ferramenta de rastreamento assíncrono da Web de código aberto projetada para modelos de linguagem grande (LLMs) e aplicativos de inteligência artificial (IA). Ele simplifica o rastreamento da Web e o processo de extração de dados, oferece suporte ao rastreamento eficiente da Web e fornece formatos de saída compatíveis com LLM para...
9 meses atrás
02.7K
Amphion MaskGCT:零样本文本到语音克隆模型(本地一键部署包)

Amphion MaskGCT: modelo de clonagem de texto para fala com amostragem zero (pacote de implantação local com um clique)

Introdução abrangente O MaskGCT (Masked Generative Codec Transformer) é um modelo de conversão de texto em fala (TTS) totalmente não autorregressivo introduzido em conjunto pela Funky Maru Technology e pela Universidade Chinesa de Hong Kong. O modelo não requer conversão explícita de texto em fala ...
9 meses atrás
02.7K
MMAudio:为视频画面生成同步音效与配乐,视频到音频的多模态联合训练工具

MMAudio: geração de efeitos sonoros e trilhas sonoras sincronizadas para filmagens de vídeo, ferramenta de treinamento conjunto multimodal de vídeo para áudio

Introdução geral O MMAudio é um projeto de código aberto que visa gerar áudio sincronizado de alta qualidade por meio de treinamento multimodal conjunto. Desenvolvido por Ho Kei Cheng et al. na Universidade Chinesa de Hong Kong, a principal função do projeto é gerar áudio sincronizado com base em entrada de vídeo e/ou texto.
8 meses atrás
02.7K
LatentSync:用音频直接生成唇形同步视频的开源工具

LatentSync: uma ferramenta de código aberto para gerar vídeo com sincronização labial diretamente do áudio

Introdução geral O LatentSync é uma ferramenta de código aberto desenvolvida pela ByteDance e hospedada no GitHub. Ela aciona os movimentos labiais dos personagens em um vídeo diretamente pelo áudio, de modo que o formato da boca corresponda precisamente à voz. O projeto é baseado no Stable Di...
2 meses atrás
02.7K
NeoAI:让AI接管电脑远程操作,使用自然语言控制电脑的开源项目

NeoAI: Projeto de código aberto que permite que a IA assuma a operação remota de computadores e os controle usando linguagem natural

Introdução geral O NeoAI é uma ferramenta inovadora de assistente de IA de código aberto que permite aos usuários controlar e gerenciar facilmente seus computadores por meio de diálogo em linguagem natural. Sem escrever nenhum código, os usuários podem encontrar arquivos, automatizar tarefas, gerenciar dispositivos e muito mais com apenas um diálogo diário.
7 meses atrás
02.7K
Edge TTS Worker:使用Cloudflare部署微软语音合成API,兼容OpenAI 格式并封装Web界面

Edge TTS Worker: implantação de APIs de síntese de fala da Microsoft usando Cloudflare, formato compatível com OpenAI e interface da Web empacotada

Introdução geral O Edge TTS Worker (que depende do edge-tts) é um serviço de proxy implantado no Cloudflare Worker que encapsula o serviço Microsoft Edge TTS em um formato compatível com o OpenAI ...
7 meses atrás
02.7K
OmniGen:统一图像生成模型,多模态输入生成人物一致性图像

OmniGen: um modelo unificado de geração de imagens com entradas multimodais para gerar imagens consistentes com caracteres

Introdução geral O OmniGen é um modelo "universal" de geração de imagens desenvolvido pela VectorSpaceLab que permite aos usuários criar efeitos visuais diversificados e contextualmente ricos com comandos de texto simples ou entradas multimodais. Ele é particularmente adequado para aplicativos que precisam reconhecer...
9 meses atrás
02.7K
LiveTalking:开源实时互动数字人直播系统,实现音视频同步对话

LiveTalking: sistema interativo digital humano ao vivo em tempo real de código aberto para obter um diálogo síncrono de áudio e vídeo

Introdução abrangente O LiveTalking é um sistema humano digital interativo em tempo real de código aberto, comprometido com a criação de soluções humanas digitais ao vivo de alta qualidade. O projeto usa o protocolo de código aberto Apache 2.0, integrado a várias tecnologias de ponta, incluindo renderização ER-NeRF, processamento de streaming de áudio e vídeo em tempo real...
7 meses atrás
02.7K
Goose:开源可扩展的编程智能体,自动化执行编程全流程任务

Goose: inteligências de programação escalonáveis de código aberto que automatizam tarefas de programação de processo completo

Introdução geral O Goose é uma ferramenta de agente de IA de código aberto desenvolvida pela Block, Inc., projetada para ajudar os desenvolvedores a automatizar as tarefas diárias de desenvolvimento. Ele é compatível com uma ampla variedade de modelos de linguagem grande (LLMs) e interage com os usuários por meio da linha de comando ou de interfaces de aplicativos de desktop.
6 meses atrás
02.7K
小智 AI 聊天机器人:打造你的AI聊天伴侣,轻松实现语音对话和智能互动

Xiaozhi AI Chatbot: crie seu companheiro de bate-papo com IA, diálogo de voz fácil e interação inteligente

Introdução abrangente O Xiaozhi AI Chatbot é um projeto de código aberto baseado na placa de desenvolvimento ESP32, projetado para ajudar os usuários a criar seu próprio companheiro de bate-papo de IA. O projeto foi desenvolvido pela Shrimp e é usado principalmente para fins didáticos para ajudar mais pessoas a começar a trabalhar com o desenvolvimento de hardware de IA e entender como aplicar modelos de linguagem grandes a...
5 meses atrás
02.7K
Model Context Provider CLI:任意大模型中使用MCP服务的命令行工具,不依赖Claude

Model Context Provider CLI: ferramenta de linha de comando para usar os serviços do MCP em qualquer modelo grande, não depende do Claude.

Introdução abrangente A CLI do provedor de contexto de modelo (mcp-cli) é uma ferramenta de linha de comando em nível de protocolo para interagir com um servidor de provedor de contexto de modelo. A ferramenta permite que os usuários enviem comandos, consultem dados e interajam com vários recursos fornecidos pelo servidor...
5 meses atrás
02.7K
OpenCharacter:开源无审查的Character.AI替代品

OpenCharacter: a alternativa de código aberto e sem censura ao Character.AI

Introdução geral O OpenCharacter é uma ferramenta de criação de personagens de código aberto projetada para oferecer aos usuários uma experiência de interação e criação de personagens de IA ilimitada e sem filtros como uma alternativa ao Character.AI. Os usuários podem criar e executar seus próprios personagens usando modelos nativos ou...
7 meses atrás
02.7K
VisoMaster:强大且易用的图片/视频换脸和编辑软件

VisoMaster: software de edição e de melhoria de fotos e vídeos potente e fácil de usar

Introdução geral O VisoMaster é uma ferramenta de edição e troca de faces de vídeo poderosa e fácil de usar que utiliza tecnologia de inteligência artificial para obter efeitos naturais e realistas de troca de faces. Seja em uma imagem ou em um vídeo, o VisoMaster pode gerar resultados de troca de rosto de alta qualidade com operações simples, adequadas para...
6 meses atrás
02.7K
PydanticAI:使用Pydantic构建生成式AI应用,让构建生产级AI应用更加简单

PydanticAI: A criação de aplicativos de IA generativa com o Pydantic facilita a criação de aplicativos de IA de nível de produção

Introdução geral O PydanticAI é uma estrutura de agente Python baseada no Pydantic, projetada para simplificar o desenvolvimento de aplicativos de IA generativa. Ela foi desenvolvida pela equipe da Pydantic e oferece suporte a uma ampla variedade de modelos (por exemplo, OpenAI, Gemini, Groq etc.) e...
8 meses atrás
02.7K