Projeto de código aberto de IA

Total de 1020 artigos
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: Interface de bate-papo com IA para visualizar conversas baseadas em árvores

Introdução geral O TreeGPT é um aplicativo de bate-papo de código aberto baseado no Next.js, que se concentra na visualização de conversas com grandes modelos de linguagem (LLMs, por exemplo, GPTs) por meio de estruturas de gráficos em árvore (gráficos acíclicos direcionados, DAGs), substituindo os métodos de bate-papo lineares tradicionais para melhorar a velocidade e a...
6 meses atrás
03K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: Integre facilmente vários modelos de IA e crie aplicativos multimodais com base no Gradio

Introdução geral O ai-gradio é um kit de ferramentas Python de código aberto projetado para ajudar os desenvolvedores a integrar e usar facilmente vários modelos de IA. Criado com base no Gradio, o projeto oferece uma interface unificada para dar suporte a vários modelos e serviços de IA. Seja texto, fala ou vídeo...
6 meses atrás
03K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: ferramenta multifuncional para restauração e edição de imagens lançada pela Tencent ARC

Introdução abrangente O BrushEdit é uma ferramenta multifuncional de reparo e edição de imagens desenvolvida pela Tencent ARC Labs. A ferramenta é baseada na mais recente tecnologia de IA e é capaz de identificar e reparar automaticamente defeitos em imagens, além de oferecer suporte à edição interativa pelos usuários.
8 meses atrás
03K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Sonic: Imagens de retrato com áudio geram vídeos de demonstração digital com expressões faciais vívidas

Introdução geral O Sonic é uma plataforma inovadora que se concentra na percepção global do áudio, com o objetivo de gerar animações de retratos vívidos impulsionadas pelo áudio. Desenvolvida por uma equipe de pesquisadores da Tencent e da Universidade de Zhejiang, a plataforma usa informações de áudio para controlar expressões faciais e movimentos da cabeça para gerar vídeos animados naturais e suaves.
4 meses atrás
03K
AI2SRT:利用 Gemini模型,一键为长视频创建解说短视频或视频总结

AI2SRT: Crie vídeos curtos narrados ou resumos de vídeo para vídeos longos com um clique usando o modelo Gemini

Introdução abrangente O AI2SRT é um projeto de código aberto que usa o modelo GeminiAI big para gerar vídeos curtos narrados e resumos de vídeo para vídeos longos com um clique, além de oferecer suporte a legendas de transcrição de áudio e vídeo. O projeto tem como objetivo simplificar o processo de criação de conteúdo de vídeo e fornecer funções eficientes de geração e tradução de legendas. Os usuários podem passar...
8 meses atrás
03K
DeepSeek Engineer:基于DeepSeek API的实验性编码助手,附提示词

DeepSeek Engineer: um assistente de codificação experimental baseado na API do DeepSeek, com palavras-chave

Descrição geral O DeepSeek Engineer é uma poderosa ferramenta de assistente de programação baseada na API do DeepSeek, capaz de interagir com o usuário por meio de uma interface de linha de comando intuitiva para auxiliar em uma variedade de tarefas de desenvolvimento de software. A ferramenta combina o poder da modelagem de linguagem em larga escala com...
6 meses atrás
02.9K
OpenManus-RL:微调大模型强化智能体推理与决策能力

OpenManus-RL: ajuste fino de modelos grandes para aprimorar o raciocínio e a tomada de decisões de corpos inteligentes

Introdução geral O OpenManus-RL é um projeto de código aberto desenvolvido pelo UIUC-Ulab em conjunto com a equipe OpenManus da comunidade MetaGPT, hospedado no GitHub. O projeto aprimora a modelagem de linguagem em larga escala (LLM) por meio de técnicas de aprendizagem por reforço (RL)...
5 meses atrás
02.9K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG: uma ferramenta de avaliação visual para otimizar os sistemas de geração de aprimoramento de recuperação

Introdução abrangente O XRAG (eXamining the Core) é uma estrutura de benchmarking projetada para avaliar os componentes subjacentes dos sistemas avançados de geração de aumento de recuperação (RAG). Ao traçar o perfil e analisar cada módulo central, o XRAG fornece informações sobre como diferentes configurações e componentes afetam o RAG...
7 meses atrás
02.9K
OuteTTS:实验性文本转语音模型,使用纯语言建模方法实现的TTS

OuteTTS: modelo experimental de conversão de texto em fala, TTS implementado usando uma abordagem de modelagem de linguagem pura

Introdução abrangente OuteTTS é um modelo experimental de conversão de texto em fala (TTS) que usa uma abordagem de modelagem de linguagem pura para gerar fala de alta qualidade. Ao contrário dos sistemas TTS tradicionais, o OuteTTS não requer adaptadores externos ou arquiteturas complexas. O modelo é baseado na arquitetura LLaMa...
6 meses atrás
02.9K
Supermemory:导入书签和网页内容构建个人知识库

Supermemória: importação de favoritos e conteúdo da Web para criar uma base de conhecimento pessoal

Introdução geral O Supermemory é um projeto de código aberto criado para ajudar os usuários a construir seu "segundo cérebro". Com uma poderosa extensão do Chrome e tecnologia de IA, ele permite que os usuários salvem, organizem e recuperem facilmente dados de páginas da Web, favoritos do Twitter...
6 meses atrás
02.9K
VoiceCraft:开源零样本语音克隆与文本转语音工具

VoiceCraft: ferramenta de clonagem de fala e conversão de texto em fala de código aberto com amostra zero

Introdução abrangente O VoiceCraft é uma ferramenta de edição de fala de código aberto e de síntese de fala de amostra zero baseada no modelo de linguagem do codec neural. Ele emprega um método inovador de geração de sequência codificada que permite operações de inserção, exclusão e substituição em sequências de fala existentes para gerar uma fala editada natural e coerente...
10 meses atrás
02.9K
VimLM:本地LLM驱动的Vim编程助手,安全离线的智能编程

VimLM: assistente de programação Vim nativo orientado por LLM, programação inteligente off-line com segurança

Introdução geral O VimLM é um plug-in do Vim que fornece um assistente de código orientado pelo LLM (Large Language Model) nativo. Ao interagir com o modelo LLM nativo por meio de comandos do Vim, ele obtém automaticamente o contexto do código e ajuda os usuários a editar o código no Vim.
6 meses atrás
02.9K
Ichigo(llama3-s):本地实时语音AI助手,开源版Siri

Ichigo (llama3-s): assistente de IA de voz local em tempo real, versão de código aberto da Siri

Introdução geral O Ichigo é um projeto de código aberto de IA de fala em tempo real que visa ampliar os modelos de linguagem baseados em texto com recursos nativos de "escuta". O projeto usa técnicas de fusão iniciais inspiradas no documento Chameleon da Meta. O objetivo do Ichigo é se tornar...
7 meses atrás
02.9K
Quanta Quest:端侧大模型与面向个人数据的本地化AI搜索平台(预览版)

Quanta Quest: grandes modelos finais e plataforma de pesquisa de IA localizada para dados pessoais (visualização)

Introdução O Quanta Quest é o primeiro produto do mundo com "modelo grande do lado final + localização de dados do lado C" como a direção principal da evolução. Ele ajuda os usuários a armazenar todos os dados do Gmail, Notion, Dropbox etc. localmente e processá-los por meio de um banco de dados vetorial para garantir...
10 meses atrás
02.9K
StreamingT2V:从文本到长视频的动态且可扩展的生成技术

StreamingT2V: geração dinâmica e dimensionável de texto para vídeo longo

Introdução abrangente O StreamingT2V é um projeto público desenvolvido pela equipe de pesquisa de IA da Picsart, focado na geração de vídeos longos coerentes, dinâmicos e dimensionáveis com base em descrições textuais. Essa tecnologia usa uma abordagem autorregressiva avançada que garante a consistência temporal do vídeo com o texto da descrição de forma rigorosa...
9 meses atrás
02.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: uma API unificada para integrar a geração de fala, a transcrição de fala e a modelagem de voz do Well-Known

Introdução geral O Orate é um kit de ferramentas de IA voltado para a geração e transcrição de fala. Ele fornece uma API unificada que se integra perfeitamente aos principais provedores de IA, como OpenAI, ElevenLabs e AssemblyAI, para ajudar os usuários a criar...
6 meses atrás
02.9K
Agentarium: gerenciamento e coordenação de interações entre várias inteligências de IA

Agentarium: gerenciamento e coordenação de interações entre várias inteligências de IA

Introdução geral O Agentarium é uma poderosa estrutura Python dedicada ao gerenciamento e à orquestração de agentes inteligentes de IA (agentes). A estrutura oferece uma maneira flexível e intuitiva de criar, gerenciar e orquestrar interações entre vários agentes de IA. Ele usa o A...
7 meses atrás
02.9K
ANP:实现智能代理间安全高效通信的开源协议

ANP: um protocolo de código aberto para comunicação segura e eficiente entre agentes inteligentes

Introdução geral O AgentNetworkProtocol (ANP, para abreviar) é um projeto de protocolo de código aberto, hospedado no GitHub, voltado para o fornecimento de soluções de comunicação seguras e eficientes para agentes inteligentes (agentes de IA). Ele funciona por meio de uma arquitetura de três camadas - identidade e criptografia...
5 meses atrás
02.9K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor: Base de conhecimento + Mentor de revisão de código inteligente orientado por LLM para GitHub

Introdução abrangente O CR-Mentor é uma ferramenta inteligente de revisão de código que combina uma base de conhecimento profissional com o poder da Modelagem de Linguagem Grande (LLM). Ele não só oferece suporte à revisão de código para todas as linguagens de programação, mas também personaliza critérios de revisão exclusivos e áreas de foco para equipes com base nas práticas recomendadas acumuladas na base de conhecimento. Por meio de...
9 meses atrás
02.9K
Open-LLM-VTuber:实时语音互动的Live2D动画AI虚拟伴侣

Open-LLM-VTuber: um companheiro virtual de IA animado em Live2D para interação de voz em tempo real

Introdução geral O Open-LLM-VTuber é um projeto de código aberto que permite que os usuários interajam com modelos de linguagem grande (LLMs) por meio de fala e texto, e incorpora a tecnologia Live2D para apresentar personagens virtuais dinâmicos. Ele é compatível com Windows, macOS e Linux, e pode ser totalmente...
5 meses atrás
02.9K
CogAgent:智谱开源的智能视觉语言模型,实现图形界面自动化操作

CogAgent: modelo de linguagem visual inteligente de código aberto da Smart Spectrum para automação de interfaces gráficas

Introdução abrangente O CogAgent é um modelo de linguagem visual de código aberto desenvolvido pelo Grupo de Pesquisa de Mineração de Dados da Universidade de Tsinghua (THUDM), com o objetivo de automatizar a operação da Interface Gráfica do Usuário (GUI) em várias plataformas. O modelo é baseado no CogVLM (GLM-4V-9B) e oferece suporte a idiomas bilíngues chinês e inglês...
8 meses atrás
02.9K
FastAPI DocGPT:基于FastAPI的PDF文档处理和问答系统

FastAPI DocGPT: sistema de Q&A e processamento de documentos PDF baseado em FastAPI

Introdução geral O FastAPI DocGPT é um sistema de teste de documentos baseado em FastAPI que permite que os usuários carreguem arquivos PDF e façam testes com base no conteúdo do documento. O sistema usa a tecnologia de incorporação da OpenAI para incorporar o conteúdo do documento em um banco de dados vetorial...
9 meses atrás
02.9K
go-stock:AI赋能股票分析工具,自选股行情实时监控并基于AI深度分析

go-stock: ferramenta de análise de ações habilitada para IA, monitoramento em tempo real de cotações de ações escolhidas por você mesmo e análise aprofundada com base em IA

Introdução abrangente O go-stock é uma ferramenta de análise de ações habilitada para IA, desenvolvida com base no Wails e no NaiveUI. A ferramenta é capaz de monitorar em tempo real as cotações de ações, fornecendo exibição de custos e lucros/perdas e função de acionamento de alarme para cima/para baixo. Todos os dados são salvos localmente para garantir que os usuários...
6 meses atrás
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelagem de linguagem ampla (LLM). A ferramenta foi desenvolvida pela Mendable AI usando o @firec...
7 meses atrás
02.9K
Charla:基于终端的极简AI聊天工具,本地集成Ollama后端

Charla: uma ferramenta minimalista de bate-papo com IA baseada em endpoint com integração nativa ao back-end do Ollama

Descrição geral O Charla é um aplicativo de bate-papo baseado em endpoint projetado para dialogar com modelos de idioma nativo. O aplicativo se integra ao back-end do Ollama, oferece suporte ao diálogo com reconhecimento de contexto e salva as sessões de bate-papo como arquivos Markdown. Os usuários podem simplesmente...
7 meses atrás
02.9K
X-Kit:Twitter数据抓取和分析X用户数据与推文的工具

X-Kit: rastreamento e análise de dados do Twitter para dados e tweets de usuários X

Introdução geral O X-Kit é uma ferramenta de código aberto criada para rastrear e analisar dados e tweets de usuários do X (antigo Twitter). Desenvolvida pelo usuário do GitHub xiaoxiunique, a ferramenta foi projetada para ajudar os usuários a automatizar o processo de obtenção de informações básicas e tweets sobre um determinado usuário do X e...
8 meses atrás
02.9K
SkyReels V2:生成无限长度视频的开源AI工具

SkyReels V2: uma ferramenta de IA de código aberto para gerar vídeos de comprimento ilimitado

Introdução abrangente O SkyReels-V2 é um modelo de geração de vídeo de código aberto desenvolvido pela SkyworkAI. Ele oferece suporte à geração de vídeos de duração ilimitada por meio da avançada tecnologia Diffusion Forcing e é adequado para conversão de texto em vídeo (T2V) e gráficos...
4 meses atrás
02.9K
R1-V:低成本强化学习实现视觉语言模型泛化能力

R1-V: Aprendizado de reforço de baixo custo para a capacidade de generalização de modelos de linguagem visual

Introdução abrangente O R1-V é um projeto de código aberto que visa a obter avanços na modelagem de linguagem visual (VLM) por meio da aprendizagem por reforço (RL) de baixo custo. O projeto utiliza mecanismos de recompensa verificáveis para motivar os VLMs a aprender habilidades genéricas de contagem. Surpreendentemente, o 2B do R1-V ...
6 meses atrás
02.9K
Step-Audio:多模态语音交互框架,识别语音并使用克隆语音交流等功能

Step-Audio: uma estrutura de interação de voz multimodal que reconhece a fala e se comunica usando a fala clonada, entre outros recursos

Introdução abrangente O Step-Audio é uma estrutura de interação de fala inteligente de código aberto projetada para fornecer recursos de geração e compreensão de fala prontos para uso em ambientes de produção. A estrutura oferece suporte a conversas em vários idiomas (por exemplo, chinês, inglês, japonês), discurso emocional (por exemplo, feliz, triste), dialetos regionais (por exemplo, cantonês, sichuanês ...
6 meses atrás
02.9K
Swarm:学习轻量级多智能体系统的实验性教学项目(OpenAI示例)

Swarm: um projeto pedagógico experimental para aprender sistemas corporais leves e multiinteligentes (exemplo da OpenAI)

Introdução geral Swarm é uma estrutura educacional experimental desenvolvida pela OpenAI para explorar interfaces leves, controladas e fáceis de testar para sistemas multiagentes. A estrutura é usada principalmente para demonstrar transferências e padrões de rotina entre agentes, ajudando os desenvolvedores a entender e implementar a coordenação e a execução de sistemas multiagentes...
7 meses atrás
02.9K
SHMT:自监督分层化妆转移模型,虚拟化妆,将妆容迁移到新的人像中

SHMT: modelo hierárquico autossupervisionado de transferência de maquiagem, maquiagem virtual, migração de maquiagem para novos retratos

Introdução abrangente O SHMT (Self-supervised Hierarchical Makeup Transfer) é um projeto de migração de maquiagem hierárquica autossupervisionada baseado em um modelo de difusão latente, com o objetivo de obter efeitos de maquiagem de alta qualidade por meio de métodos de aprendizagem não supervisionados...
7 meses atrás
02.9K
MultiPost-Extension:将AI生成内容一键同步到自媒体平台的浏览器扩展

MultiPost-Extension: extensão de navegador para sincronizar conteúdo gerado por IA com plataformas de autopublicação em um clique

Introdução geral O MultiPost-Extension é uma poderosa extensão de navegador desenvolvida para ajudar os usuários a publicar conteúdo em várias plataformas de mídia social com apenas um clique. A extensão suporta a publicação simultânea em mais de 10 plataformas principais, incluindo Zhihu, Weibo, Xiaohongshu, TikTok ...
6 meses atrás
02.9K
Diffbot GraphRAG LLM:依赖外部实时知识图谱数据的LLM推理服务

Diffbot GraphRAG LLM: serviço de raciocínio LLM baseado em dados externos de gráficos de conhecimento em tempo real

Introdução abrangente O Diffbot LLM Reasoning Server é um sistema inovador de modelagem de linguagem em larga escala com otimizações e aprimoramentos especiais baseados na arquitetura do modelo LLama. O recurso mais importante do projeto é a integração do Knowledge Graph em tempo real com a geração aprimorada por recuperação...
7 meses atrás
02.9K
MiMo:高效数学推理与代码生成的小型开源模型

MiMo: um pequeno modelo de código aberto para raciocínio matemático eficiente e geração de código

Introdução geral O MiMo é um projeto de modelagem de linguagem grande de código aberto desenvolvido pela Xiaomi, com foco em raciocínio matemático e geração de código. O produto principal é a família de modelos MiMo-7B, que contém um modelo básico (Base), um modelo de ajuste fino supervisionado (SFT), um produto químico forte treinado a partir do modelo básico...
3 meses atrás
02.9K
ModelBest(面壁智能):全球领先的轻量高性能端侧大模型

ModelBest: o principal modelo de grande porte leve e de alto desempenho do mundo

Introdução geral A ModelBest é uma empresa que se concentra no desenvolvimento de modelos grandes, leves e de alto desempenho, e se dedica a aplicar tecnologias avançadas de IA aos principais produtos eletrônicos de consumo e a todos os tipos de dispositivos finais da vida cotidiana. Sua série MiniCPM de modelos finais com extrema potência aritmética e eficiência no uso da memória...
10 meses atrás
02.9K
Reactive Resume:支持多语言、多模板的开源免费简历生成器

Reactive Resume: criador de currículos gratuito e de código aberto com suporte a vários idiomas e modelos

Descrição geral O Reactive Resume é um criador de currículos gratuito e de código aberto projetado para simplificar o processo de criação, atualização e compartilhamento de currículos. A plataforma se concentra na privacidade do usuário, sem rastreamento ou publicidade. Os usuários podem auto-hospedar o aplicativo em menos de 30 segundos, assumindo o controle total de suas...
8 meses atrás
02.9K
HelloMeme:生成局部高保真表情动作一致的图像或视频,Runway Act one 开源平替

HelloMeme: gere imagens ou vídeos consistentes com ações de expressão local de alta fidelidade, Runway Act one open source ping pong!

Introdução abrangente O HelloMeme é um projeto de código aberto desenvolvido pela HelloVision, com o objetivo de incorporar faixas de alto nível e alta fidelidade em modelos de difusão, integrando o Spatial Knitting Attentions...
8 meses atrás
02.9K
RF-DETR:实时视觉对象检测开源模型

RF-DETR: um modelo de código aberto para detecção de objetos visuais em tempo real

Introdução abrangente O RF-DETR é um modelo de detecção de objetos de código aberto desenvolvido pela equipe do Roboflow. Ele se baseia na arquitetura Transformer e seu principal recurso é a eficiência em tempo real. Pela primeira vez, o modelo atinge mais de 60 APs em tempo real no conjunto de dados Microsoft COCO...
5 meses atrás
02.9K
AutoMouser:生成浏览器自动化代码,将鼠标操作通过AI转为Selenium Python脚本

AutoMouser: geração de código de automação do navegador para transformar ações do mouse em scripts Selenium Python via IA

Introdução geral O AutoMouser é uma extensão do Chrome que rastreia de forma inteligente as interações do usuário e gera automaticamente o código de teste Selenium usando os modelos GPT da OpenAI. Ele faz isso registrando as ações do navegador do usuário e convertendo-as...
7 meses atrás
02.9K
Morphic:AI驱动的开源搜索引擎,提供智能问答、视频搜索、生成UI代码

Morphic: mecanismo de pesquisa de código aberto com tecnologia de IA oferece perguntas e respostas inteligentes, pesquisa de vídeo e geração de código de interface do usuário

Introdução geral O Morphic é um mecanismo de busca baseado na tecnologia de IA com uma interface de usuário generativa projetada para fornecer perguntas e respostas inteligentes e uma experiência de busca eficiente. Os usuários podem realizar uma variedade de pesquisas com o Morphic, incluindo texto, vídeo etc., e podem salvar o histórico de pesquisa e compartilhar os resultados da pesquisa.
9 meses atrás
02.9K
Aggregator:一站式代理爬取与聚合平台,免费代理池(请合规使用)

Agregador: plataforma completa de rastreamento e agregação de agentes, pool de agentes gratuitos (use-o de forma compatível)

Introdução abrangente O Aggregator é um projeto de código aberto que visa criar um pool de proxy gratuito que pode rastrear uma variedade de nós de proxy disponíveis. A plataforma tem um sistema de plug-in flexível, os usuários podem, de acordo com as necessidades especiais do site de destino, usar plug-ins para obter funções específicas. O projeto é usado principalmente para aprender a rastrear ...
9 meses atrás
02.9K
BotSharp:基于.NET的多智能体AI应开发与管理平台

BotSharp: uma plataforma de desenvolvimento e gerenciamento de inteligência múltipla de IA baseada em .NET

Introdução abrangente O BotSharp é um projeto de código aberto baseado no .NET Core dedicado a fornecer uma ferramenta abrangente de criação de plataforma de chatbot de IA. Ele usa a programação C#, oferece suporte à operação entre plataformas e tem como objetivo simplificar a aplicação de algoritmos de aprendizado de máquina, permitindo que os desenvolvedores de nível empresarial...
7 meses atrás
02.9K
Aisuite:统一OpenAI接口风格调用多种大模型,快速切换模型和对比测试

Aisuite: o estilo de interface OpenAI unificado chama vários modelos grandes, troca rápida de modelos e testes de comparação

Introdução abrangente O aisuite é uma interface simples e unificada projetada para permitir que os desenvolvedores invoquem facilmente os serviços de vários provedores de IA generativa. Com uma interface semelhante à do OpenAI, o aisuite facilita a interação com os LLMs (Large Language Models) mais populares...
9 meses atrás
02.9K
PPTAgent:自动生成和评估PPT演示文稿,文档转PPT

PPTAgent: geração e avaliação automáticas de apresentações PPT, documentos para PPTs

Introdução geral O PPTAgent é um sistema inovador projetado para gerar automaticamente apresentações a partir de documentos. O sistema se baseia na abordagem humana para criar apresentações, usando um processo de duas etapas para garantir a qualidade do conteúdo e o impacto visual. Além disso, o PPTAgent apresenta o PPTEval, uma ferramenta abrangente...
7 meses atrás
02.9K
ComfyUI-Copilot:文字描述生成 ComfyUI 工作流的AI助手

ComfyUI-Copilot: um assistente de IA para geração de descrição de texto Fluxos de trabalho do ComfyUI

Introdução abrangente O ComfyUI-Copilot é um nó personalizado orientado por IA projetado para a estrutura ComfyUI, com o objetivo de melhorar a eficiência da depuração e da implementação de algoritmos de IA por meio da interação de linguagem natural. Ele foi desenvolvido pela equipe AIDC-AI (Alibaba) e derivado do GitHu...
6 meses atrás
02.9K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Contornos: gerar saída de texto estruturado por meio de expressões regulares, JSON ou modelos Pydantic

Introdução geral Outlines é uma biblioteca de código aberto desenvolvida pela dottxt-ai para aprimorar a aplicação de modelos de linguagem ampla (LLMs) por meio da geração de texto estruturado. A biblioteca oferece suporte a uma variedade de integrações de modelos, incluindo OpenAI, transformadores...
6 meses atrás
02.9K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat

Introdução geral O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem usar a linha de comando, a interface de terminal ou o H...
4 meses atrás
02.9K
MemFree:本地知识库与搜索信息混合的AI搜索引擎

MemFree: um mecanismo de pesquisa de IA que combina bases de conhecimento locais com informações de pesquisa

Introdução geral O MemFree é um mecanismo de pesquisa de IA híbrido avançado capaz de pesquisar e fazer perguntas por meio de texto, imagens, documentos e páginas da Web. Ele fornece acesso com um clique aos resultados da pesquisa de texto, mapas mentais, imagens e vídeos. O MemFree tem como objetivo extrair informações da base de conhecimento do usuário e...
10 meses atrás
02.9K
PocketFlow:100行代码实现AI应用开发的极简框架

PocketFlow: uma estrutura minimalista para o desenvolvimento de aplicativos de IA em 100 linhas de código

Introdução abrangente O PocketFlow é uma estrutura leve de desenvolvimento de aplicativos de IA com apenas 100 linhas de código, desenvolvida pela equipe da The-Pocket e de código aberto no GitHub. Ele busca um design minimalista, o controle do código principal em 100 linhas, sem dependências externas ...
5 meses atrás
02.9K
Qwen2.5-Omni:多模态输入和实时语音交互的端测模型

Qwen2.5-Omni: um modelo de medição final para entrada multimodal e interação de fala em tempo real

Introdução abrangente O Qwen2.5-Omni é um modelo de IA multimodal de código aberto desenvolvido pela equipe do Alibaba Cloud Qwen. Ele pode processar várias entradas, como texto, imagens, áudio e vídeo, e gerar respostas em texto ou fala natural em tempo real. O modelo foi lançado em 2025 em 3 de ...
5 meses atrás
02.9K
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: integração de várias fontes de dados em um único arquivo de texto

Introdução abrangente O OneFileLLM é uma ferramenta de linha de comando de código aberto projetada para consolidar várias fontes de dados em um único arquivo de texto para facilitar a entrada em modelos de linguagem grande (LLMs). Ele é compatível com o processamento de repositórios do GitHub, artigos do ArXiv, transcrições de vídeos do YouTube,...
4 meses atrás
02.9K
TankWork:通过语音和文字操作电脑,并提供实时语音反馈的智能体

TankWork: um corpo inteligente que opera computadores por meio de voz e texto e fornece feedback de voz em tempo real

Introdução geral O TankWork é uma estrutura de agente de desktop de código aberto projetada para permitir que a IA perceba e controle seu computador por meio de visão computacional e interação no nível do sistema. A estrutura permite que os agentes controlem diretamente os computadores por meio de comandos de voz e texto, processem o conteúdo da tela em tempo real e forneçam...
7 meses atrás
02.9K
Tap4 AI WebUI:开源轻量级AI工具导航项目

Tap4 AI WebUI: projeto de navegação de ferramenta de IA leve e de código aberto

Introdução abrangente O Tap4 AI WebUI é um projeto de site de navegação de ferramentas de IA leve e de código aberto, projetado para ajudar os usuários a criar facilmente seu próprio catálogo de ferramentas de IA. O projeto usa o Next.js e a pilha de tecnologia Supabase, com suporte para otimização de SEO em vários idiomas, para fornecer...
10 meses atrás
02.9K
OpenVoice(MyShell):多语言少样本即时语音克隆

OpenVoice (MyShell): clonagem instantânea de fala em vários idiomas com menos amostras

Introdução geral O OpenVoice é um método versátil de clonagem instantânea de fala que permite copiar a voz de um locutor de referência e gerar fala multilíngue usando apenas clipes de áudio curtos do locutor. Além de copiar tons, o OpenVoice permite um controle preciso sobre o estilo da voz, incluindo...
10 meses atrás
02.9K
VideoChat:自定义形象和音色克隆的实时语音交互数字人,支持端到端语音方案和级联方案

VideoChat: pessoa digital interativa por voz em tempo real com clonagem personalizada de imagens e tons, com suporte a soluções de voz de ponta a ponta e soluções em cascata

Introdução geral O VideoChat é um projeto de interação de voz em tempo real para pessoas digitais baseado em tecnologia de código aberto, com suporte a esquemas de voz de ponta a ponta (GLM-4-Voice - THG) e esquemas em cascata (ASR-LLM-TTS-THG). O projeto permite que os usuários personalizem a pessoa digital ...
9 meses atrás
02.9K
Languine:使用AI进行应用程序翻译,兼容所有主流 i18n 库

Languine: tradução de aplicativos usando IA, compatível com todas as principais bibliotecas de i18n

Introdução geral O Languine é uma poderosa ferramenta de tradução desenvolvida pelo Midday para ajudar os desenvolvedores a simplificar o processo de localização de seus aplicativos. Com o Languine, os desenvolvedores podem aproveitar a tecnologia de IA para gerar rapidamente traduções precisas e contextualizadas, com suporte a mais de...
8 meses atrás
02.8K
Gemini Balance:Gemini模型API兼容OpenAI格式,解锁区域限制并支持多API Key轮询

Gemini Balance: a API do modelo Gemini é compatível com o formato OpenAI, desbloqueando restrições de região e oferecendo suporte à pesquisa de chaves de várias APIs.

Introdução abrangente O Gemini Balance é um serviço proxy de API OpenAI desenvolvido com base na estrutura FastAPI, com o objetivo de fornecer recursos eficientes de otimização e gerenciamento de chaves de várias APIs. O projeto é compatível com as chamadas do modelo Gemini, e os principais recursos incluem...
4 meses atrás
02.8K
QAnything:高度集成RAG处理流程的本地知识库问答系统

QAnything: sistema de perguntas e respostas da base de conhecimento local com fluxo de processamento de RAG altamente integrado

QAnything Introdução abrangente O QAnything (Question and Answer based on Anything) é um sistema local de perguntas e respostas baseado em conhecimento lançado pela NetEase, que suporta todos os tipos de formatos de arquivos e bancos de dados e pode ser instalado e usado off-line....
11 meses atrás
02.8K
DSPy Examples:展示DSPy功能的实用示例

Exemplos de DSPy: Exemplos práticos que demonstram a funcionalidade do DSPy

Introdução geral A base de código de exemplo do DSPy é uma base de código do GitHub mantida pela equipe de IA da Langtrace que apresenta uma variedade de exemplos de programas de IA criados usando o DSPy. A base de código foi projetada para demonstrar os vários recursos do DSPy por meio de exemplos do mundo real para ajudar os desenvolvedores a entender melhor...
6 meses atrás
02.8K
Kheish:多角色智能体,审查、验证和格式化输出以生成高质量结果

Kheish: inteligências multifuncionais que revisam, validam e formatam os resultados para produzir resultados de alta qualidade

Introdução abrangente O Kheish é um agente de código aberto de múltiplas funções projetado para tarefas de modelagem de grandes linguagens (LLM) que exigem colaboração estruturada e passo a passo. O Kheish é mais do que um simples coordenador, ele é um agente inteligente por si só, solicitando módulos sob demanda, integrando a reversão do usuário...
7 meses atrás
02.8K
Prompt Optimizer:优化主流AI模型提示词的开源工具

Prompt Optimizer: uma ferramenta de código aberto para otimizar palavras de prompt para modelos de IA convencionais

Introdução geral O Prompt Optimizer é uma ferramenta de código aberto voltada para a otimização de palavras de alerta, desenvolvida por linshenkx no GitHub. Ele ajuda os usuários a otimizar as palavras de alerta dos modelos de IA por meio de algoritmos inteligentes, melhorando assim a qualidade do conteúdo gerado...
5 meses atrás
02.8K
Executive AI Assistant:AI行政助理,提醒阅读邮件并规划工作日程

Assistente executivo de IA: assistente executivo de IA, lembretes para ler e-mails e planejar agendas de trabalho

Introdução geral O Executive AI Assistant (EAIA) é uma ferramenta de assistente baseada em IA projetada para ajudar os usuários a automatizar e gerenciar suas tarefas diárias. Desenvolvida pela LangChain, a ferramenta é capaz de lidar com e-mails, agendamentos, gerenciamento de tarefas e outros...
7 meses atrás
02.8K
TableGPT Agent:专为分析复杂表格数据设计的智能工具

TableGPT Agent: ferramenta inteligente projetada para analisar dados tabulares complexos

Introdução abrangente O TableGPT Agent é uma ferramenta inteligente baseada no projeto de código aberto do GitHub, projetado para processar e analisar dados tabulares. Ele se baseia no TableGPT2 Big Language Model e usa a interação de linguagem natural para permitir que os usuários consultem, manipulem e...
6 meses atrás
02.8K
AnkiAIUtils: Conjunto de ferramentas de IA para aprendizado de cartões de memória Anki, um assistente inteligente que otimiza automaticamente os cartões de memória

AnkiAIUtils: Conjunto de ferramentas de IA para aprendizado de cartões de memória Anki, um assistente inteligente que otimiza automaticamente os cartões de memória

Descrição geral O AnkiAIUtils é um conjunto de ferramentas aprimoradas por IA projetado para o sistema de aprendizado de flashcards Anki. Desenvolvida por um estudante de medicina, a ferramenta foi projetada para melhorar automaticamente os cartões com os quais os usuários estão tendo dificuldades durante o processo de aprendizagem por meio da tecnologia de IA. Ela fornece aos usuários, de forma inteligente,...
7 meses atrás
02.8K
Higress:提供高效的AI网关解决方案,简化微服务管理,增强安全防护

Higress: fornecendo uma solução eficiente de gateway de IA para simplificar o gerenciamento de microsserviços e aumentar a segurança

Introdução abrangente O Higress é um gateway de API nativo da nuvem desenvolvido pela Alibaba, com base no Istio e no Envoy, projetado para fornecer soluções eficientes de agendamento de tráfego, governança de serviços e segurança. Ele oferece suporte a extensões de plug-in Wasm para várias linguagens de programação para negócios de IA...
9 meses atrás
02.8K
Klee:桌面本地运行AI大模型并管理私人知识库

Klee: execução de macromodelos de IA localmente no desktop e gerenciamento de uma base de conhecimento privada

Introdução geral O Klee é um aplicativo de desktop de código aberto projetado para ajudar os usuários a executar localmente Modelos de Linguagem Grandes (LLMs) de código aberto com gerenciamento seguro de bases de conhecimento privadas e recursos de anotações Markdown. Ele se baseia nas tecnologias Ollama e LlamaIndex...
5 meses atrás
02.8K
Confident AI:自动化大语言模型评估框架,对比不同大模型提示词输出质量

Confident AI: uma estrutura para avaliação automatizada de modelos de idiomas grandes, comparando a qualidade do resultado de diferentes palavras-chave de modelos grandes

Introdução abrangente O DeepEval é uma estrutura de avaliação de LLM de código aberto fácil de usar para avaliar e testar grandes sistemas de modelagem de linguagem. Ele é semelhante ao Pytest, mas se concentra em testes de unidade de saída LLM. O DeepEval combina os resultados das pesquisas mais recentes por meio do G-Eval, do phantom...
6 meses atrás
02.8K
SpeechGPT 2.0-preview:实时交互的端到端拟人语音对话大模型

SpeechGPT 2.0-preview: um macromodelo de diálogo de fala antropomórfico de ponta a ponta para interação em tempo real

O SpeechGPT 2.0-preview é o primeiro sistema de interação antropomórfica em tempo real introduzido pelo OpenMOSS, que é treinado com base em milhões de horas de dados de fala. O sistema é equipado com expressão falada antropomórfica e resposta de baixa latência de 100 ms, oferecendo suporte à interação natural e suave em tempo real...
6 meses atrás
02.8K
ChatTTS:模仿真人说话声音的语音生成模型(ChatTTS一键加速包)

ChatTTS: um modelo de geração de fala que imita a voz de uma pessoa real falando (pacote de aceleração de um clique do ChatTTS)

Introdução geral O ChatTTS é um modelo de fala generativo projetado para cenários de diálogo. Ele gera fala natural e expressiva, suporta vários idiomas e vários falantes e é adequado para diálogos interativos. O modelo faz isso prevendo e controlando recursos rítmicos refinados, como risos, pausas e interjeições, além de...
6 meses atrás
02.8K
bilive:B站无人监守直播录制与自动切片、上传工具

bilive: gravação ao vivo sem supervisão e corte automático, ferramenta de upload para a estação B

Introdução abrangente O bilive é uma ferramenta projetada para gravação ao vivo de estações B, oferecendo gravação ao vivo extremamente rápida, corte automático, renderização de pop-ups e geração de legendas. A ferramenta é compatível com máquinas de configuração ultrabaixa, suporta gravação autônoma de 7x24 horas, identifica e renderiza automaticamente pop-ups e legendas, corta e...
6 meses atrás
02.8K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

Introdução abrangente O SemHash é uma ferramenta leve e flexível para eliminar a duplicação de conjuntos de dados por similaridade semântica. Ele combina a rápida geração de incorporação do Model2Vec com a eficiente pesquisa de similaridade ANN (vizinho mais próximo aproximado) do Vicinity.SemHa...
7 meses atrás
02.8K
Ultravox:实时端到端语音对话的音频多模态大模型,GPT-4o语音交互的开源实现

Ultravox: um macromodelo multimodal de áudio para diálogo de voz de ponta a ponta em tempo real, uma implementação de código aberto da interação de voz GPT-4o

Introdução abrangente O Ultravox é um inovador modelo multimodal de linguagem grande (LLM) projetado para processamento de fala em tempo real. Diferentemente dos sistemas tradicionais de reconhecimento de fala, o Ultravox elimina a necessidade de um estágio separado de reconhecimento de fala por áudio (ASR) e é capaz de converter diretamente o áudio em um espaço de alta dimensão...
8 meses atrás
02.8K
Pyramid Flow:快手推出的开源版

Pyramid Flow: uma versão de código aberto do "Kringle" lançada pela Racer, baseada no SD3 e executada em GPUs com menos de 8 GB (versão de implantação com um clique)

Introdução abrangente O Pyramid Flow é um método eficiente de geração de vídeo autorregressivo baseado na técnica de correspondência de fluxo. O método alcança maior eficiência computacional na geração e descompressão de conteúdo de vídeo por meio da interpolação entre diferentes resoluções e níveis de ruído...
9 meses atrás
02.8K
FlowGram.AI:快速创建节点式工作流的开源引擎

FlowGram.AI: um mecanismo de código aberto para a criação rápida de fluxos de trabalho nodais

Introdução abrangente O Flowgram.ai é um mecanismo de criação de processos de código aberto desenvolvido pela ByteDance. Ele se baseia na edição de nós, para ajudar os desenvolvedores a criar fluxos de trabalho rapidamente, com suporte para layout fixo e dois modos de vinculação livre. O projeto foi escrito em TypeScript ...
5 meses atrás
02.8K
R1-Onevision:支持多模态推理的开源视觉语言模型

R1-Onevision: um modelo de linguagem visual de código aberto que oferece suporte ao raciocínio multimodal

Introdução abrangente O R1-Onevision é um modelo de macrolinguagem multimodal de código aberto desenvolvido pela equipe do Fancy-MLLM, que se concentra na combinação profunda de visão e linguagem, capaz de processar entradas multimodais, como imagens e texto, e atuar nas áreas de raciocínio visual, compreensão de imagens, resolução de problemas matemáticos etc.....
5 meses atrás
02.8K