Projeto de código aberto de IA

Total de 1020 artigos
IMS Toucan:快速可控的多语言(支持7000+语言)文本转语音工具

IMS Toucan: ferramenta de conversão de texto em fala multilíngue rápida e controlável (com suporte para mais de 7.000 idiomas)

Introdução geral O IMS Toucan é um kit de ferramentas de conversão de texto em fala (TTS) de última geração desenvolvido pelo Instituto de Processamento de Linguagem Natural (IMS) da Universidade de Stuttgart, Alemanha. O kit de ferramentas é compatível com mais de 7.000 idiomas e é rápido, controlável e tem baixos requisitos de recursos computacionais.
6 meses atrás
03.1K
LocalGPT:在本地设备上与多文档对话,确保数据隐私

LocalGPT: garanta a privacidade dos dados conversando com vários documentos em dispositivos locais

Introdução geral O LocalGPT é um projeto de código aberto criado para permitir que os usuários conversem com documentos em dispositivos locais, garantindo a privacidade dos dados. Usando vários modelos de código aberto, o LocalGPT pode processar e entender o conteúdo de documentos sem carregar dados na nuvem. O projeto oferece suporte a uma variedade de p...
8 meses atrás
03.1K
LivePortrait:静态图像、视频生成动态肖像动画工具

LivePortrait: ferramenta de animação para gerar retratos dinâmicos a partir de imagens estáticas e vídeos

Introdução geral O LivePortrait é uma ferramenta avançada de animação de retratos dinâmicos com IA desenvolvida pela Racer Technology. Ela utiliza a inovadora tecnologia de IA para transformar imagens estáticas em animações de vídeo vívidas. Independentemente de você usar fotos reais, estilos de animação ou retratos artísticos, o LivePo...
9 meses atrás
03.1K
Quantum Swarm:多智能体集群协作框架

Quantum Swarm: uma estrutura para colaboração em clusters de inteligência múltipla

O Quantum Swarm é uma estrutura de inteligência artificial de código aberto voltada para o desenvolvimento e a pesquisa de inteligência populacional de IA. O projeto é mantido pela equipe da Quarm AI no GitHub e tem como objetivo fornecer uma plataforma flexível e eficiente para criar e testar sistemas de inteligência múltipla.
7 meses atrás
03.1K
Agent.exe:让AI直接控制你的电脑,Claude控制计算机的开源实现

Agent.exe: permite que a IA controle seu computador diretamente, uma implementação de código aberto do computador de controle do Claude

Descrição geral O Agent.exe é um aplicativo Electron de código aberto que utiliza a API Sonnet Claude 3.5 da Anthropic para permitir que os usuários controlem seus computadores locais diretamente por meio de IA. O projeto foi desenvolvido por K...
8 meses atrás
03.1K
AnyText:生成和编辑多语言图像文本,高可控在图像中生成多行中文

AnyText: gere e edite texto de imagem em vários idiomas, altamente controlável para gerar várias linhas de chinês na imagem

Introdução abrangente O AnyText é uma ferramenta revolucionária de geração e edição de texto visual multilíngue desenvolvida com base no modelo de difusão. Ele gera texto multilíngue natural e de alta qualidade em imagens e oferece suporte a recursos flexíveis de edição de texto. Ele foi desenvolvido por uma equipe de pesquisadores e apresentado no ICLR 2024...
7 meses atrás
03.1K
AutoGPT:工作流自动化与自主执行任务的智能体构建平台

AutoGPT: plataforma inteligente de criação de corpos para automação do fluxo de trabalho e execução autônoma de tarefas

Descrição geral O AutoGPT é uma plataforma avançada projetada para ajudar os usuários a criar, implementar e gerenciar agentes de IA em execução contínua e automatizar fluxos de trabalho complexos. Desenvolvida pela Significant Gravitas, a plataforma oferece uma ampla gama de ferramentas e recursos que permitem aos usuários se concentrarem...
8 meses atrás
03.1K
Browse AI:无代码提取和监控结构化数据

Browse AI: extração e monitoramento de dados estruturados sem código

Apresentando o Browse O Browse AI é um software de automação da Web sem codificação e baseado na nuvem, projetado para ajudar os usuários a extrair e monitorar dados de qualquer site sem programação. Você pode treinar um bot para executar tarefas de extração de dados, monitoramento e automação com apenas um ponto do mouse...
11 meses atrás
03.1K
RAGLite:高效的检索增强生成(RAG)工具,支持多种数据库和语言模型。

RAGLite: uma ferramenta eficiente de geração de aumento de recuperação (RAG) que suporta vários bancos de dados e modelos de linguagem.

Introdução geral O RAGLite é um kit de ferramentas Python para Retrieval Augmented Generation (RAG) com suporte para bancos de dados PostgreSQL ou SQLite. Ele oferece opções de configuração flexíveis que permitem aos usuários escolher diferentes modelos de linguagem e reordenadores...
9 meses atrás
03K
Linly-Dubbing:智能视频多语言AI配音/翻译工具

Linly-Dubbing: ferramenta inteligente de dublagem/tradução de vídeo multilíngue com IA

Introdução abrangente O Linly-Dubbing é uma ferramenta inteligente de tradução e dublagem multilíngue de IA projetada para oferecer aos usuários serviços de tradução de legendas e dublagem de vídeo multilíngue de alta qualidade por meio da integração de tecnologia avançada de IA. A ferramenta é especialmente adequada para educação internacional, localização de conteúdo global e outros cenários, ajudando...
7 meses atrás
03K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: extração de informações estruturadas para tabelas complexas

O objetivo do reconhecimento de tabelas é analisar tabelas em imagens, identificar com precisão as estruturas das tabelas e os locais das células e reduzi-las a formatos de tabelas estruturadas (por exemplo, HTML). Na atual era da informação, uma grande quantidade de dados tabulares importantes ainda existe em um estado não estruturado (por exemplo, documentos digitalizados com imagens de tabelas estatísticas...).
5 meses atrás
03K
DeepSeek-VL2:高级多模态理解的专家级视觉语言模型

DeepSeek-VL2: um modelo de linguagem visual especializado para compreensão multimodal avançada

Introdução abrangente O DeepSeek-VL2 é uma série de modelos avançados de linguagem visual Mixture-of-Experts (MoE) que melhoram significativamente o desempenho de seu antecessor, o DeepSeek-VL. Os modelos são úteis em perguntas e respostas visuais, reconhecimento óptico de caracteres,...
6 meses atrás
03K
wechat-article-exporter:一键部署微信公众号文章批量导出工具

wechat-article-exporter: implantação com um clique da ferramenta de exportação em lote de artigos de números públicos do wechat

Introdução abrangente O wechat-article-exporter é uma ferramenta de código aberto criada para ajudar os usuários a exportar em lote artigos de números públicos do WeChat. A ferramenta oferece suporte à exportação de áudio e vídeo incorporados no artigo sem criar nenhum ambiente, pode restaurar o estilo do artigo e oferece suporte a partes privadas...
10 meses atrás
03K
FiveThirtyNine:基于搜索知识对未来事件发生概率预测

FiveThirtyNine: Previsão da probabilidade de eventos futuros com base no conhecimento de pesquisa

Introdução geral O Forecast AI é uma excelente plataforma de previsão baseada em tecnologia avançada de inteligência artificial. Ela usa análises de dados poderosas e algoritmos de aprendizado de máquina para fornecer aos usuários previsões altamente precisas de eventos futuros. Quer se trate de eleições políticas, tendências econômicas ou eventos sociais, o Forecast ...
11 meses atrás
03K
PhiData:构建拥有记忆、知识和工具的AI智能体

PhiData: criando inteligências de IA com memória, conhecimento e ferramentas

Introdução abrangente O PhiData é uma estrutura projetada para desenvolver assistentes de IA inteligentes. Ele permite que os assistentes de IA se envolvam em conversas de longo prazo, forneçam contexto comercial preciso e realizem várias operações por meio de memória aprimorada, integração de conhecimento e recursos de invocação de ferramentas.
5 meses atrás
03K
Vision is All You Need:使用视觉语言模型构建智能文档检索系统(Vision RAG)

Visão é tudo o que você precisa: Criação de um sistema inteligente de recuperação de documentos usando modelos de linguagem visual (Vision RAG)

Introdução abrangente O Vision-is-all-you-need é um projeto inovador de demonstração do sistema visual RAG (Retrieval Augmented Generation) que abre novos caminhos na aplicação da Modelagem de Linguagem Visual (VLM) ao domínio do processamento de documentos. Ao contrário dos métodos tradicionais de fragmentação de texto, o sistema permite diretamente...
7 meses atrás
03K
Robo Blogger:基于LangGraph将语音内容生成博客文章,自动化写作博客

Robo Blogger: geração de posts de blog a partir de conteúdo de voz com base no LangGraph, redação automatizada de blogs

Introdução geral O Robo Blogger é uma ferramenta inovadora de criação de blogs projetada para simplificar o processo de geração de conteúdo por meio da tecnologia de fala para texto. Os usuários podem registrar ideias por meio de qualquer aplicativo de fala para texto, e o Robo Blogger transforma essas ideias em conteúdo estruturado de blog...
8 meses atrás
03K
Ragas:评估RAG召回QA准确率与答案相关性

Ragas: avaliando a precisão do RAG recall QA e a correlação de respostas

Introdução abrangente O Ragas é uma ferramenta projetada especificamente para avaliar e otimizar os sistemas RAG (Retrieval Augmented Generation). Ele fornece um conjunto abrangente de métricas de avaliação, analisando as relações entre consultas, contextos de recuperação e respostas geradas. Essas métricas incluem fidelidade, relevância da resposta, relevância do contexto,...
7 meses atrás
03K
DH live:在30/40系显卡流畅实时交互的AI数字人

DH live: pessoas digitais com IA com interação suave em tempo real em placas de vídeo da série 30/40

Introdução geral O DH_live é um projeto humano digital ao vivo em tempo real baseado em aprendizado sem amostragem, com o objetivo de oferecer aos usuários uma experiência de transmissão ao vivo suave e interativa. O projeto é compatível com as placas de vídeo NVIDIA das séries 30 e 40 e é capaz de ser executado em tempo real a mais de 25 fps. Os usuários podem...
9 meses atrás
03K
Xorbits Inference:一键部署多种AI模型,分布式推理框架

Xorbits Inference: implantação com um clique de vários modelos de IA, uma estrutura de inferência distribuída

Introdução abrangente O Xorbits Inference (Xinference) é uma estrutura de inferência distribuída avançada e abrangente que oferece suporte à inferência para uma ampla variedade de modelos de IA, como modelos de linguagem ampla (LLMs), modelos de reconhecimento de fala e modelos multimodais. Com o Xorbits I...
11 meses atrás
03K
VITA:开源视觉与语音实时交互的多模态大语言模型

VITA: Modelos de linguagem multimodal de grande porte de código aberto para interação visual e de fala em tempo real

Introdução geral O VITA é um projeto líder de modelagem de linguagem grande multimodal interativa de código aberto, pioneiro na capacidade de obter uma verdadeira interação multimodal completa. O projeto lançou o VITA-1.0 em agosto de 2024, sendo pioneiro no primeiro modelo de linguagem grande totalmente modal e interativo de código aberto.2024...
7 meses atrás
03K
FramePainter:AI驱动的涂鸦式图像编辑工具

FramePainter: ferramenta de edição de imagens no estilo de rabiscos com tecnologia de IA

Introdução geral O FramePainter é uma ferramenta revolucionária de edição de imagens orientada por IA que utiliza tecnologia avançada de difusão de vídeo e controles intuitivos do Sketch para ajudar os usuários a realizar facilmente edições complexas de imagens. Seja um simples ajuste ou uma transformação criativa complexa, o Fr...
7 meses atrás
03K
Fay数字人框架:集成语言模型与3D数字角色,支持多种应用场景

Fay Digital Human Framework: integração de modelos de linguagem e caracteres digitais 3D para dar suporte a vários cenários de aplicativos

Introdução abrangente O Fay é uma estrutura humana digital virtual 3D de código aberto que integra modelos de linguagem e caracteres digitais para uma variedade de cenários de aplicativos, como guias de compras virtuais, âncoras virtuais, assistentes, garçons, professores e assistentes móveis baseados em voz ou texto.
7 meses atrás
03K
Devika:开源的AI软件工程师智能体,能够理解、拆分指令为子任务并编写代码

Devika: inteligência de engenharia de software de IA de código aberto que entende, divide instruções em subtarefas e escreve código

Introdução geral O Devika é um engenheiro de software de IA avançado que entende instruções humanas de alto nível, divide-as em etapas, estuda as informações relevantes e escreve códigos para atingir um determinado objetivo. Ele desenvolve software de forma inteligente usando modelos de linguagem em grande escala, algoritmos de planejamento e raciocínio e recursos de navegação na Web.
5 meses atrás
03K
SP-MangaEditer:专业四格漫画插图创作工具,生成图像、编辑漫画页面

SP-MangaEditer: ferramenta profissional de criação de ilustrações de mangá em quatro painéis, gerando imagens e editando páginas de mangá

Introdução geral O SP-MangaEditer é uma plataforma independente de edição de mangás projetada para criadores de mangás. A plataforma suporta geração de imagens, edição de camadas, ajuste de imagens, aplicação de filtros e muitas outras funções para ajudar os usuários a criar facilmente ilustrações de mangá de alta qualidade. Os usuários podem operar com uma simples...
7 meses atrás
03K
RealtimeSTT:实时语音转文字工具,基于Whisper实现低延迟流式语音识别

RealtimeSTT: ferramenta de conversão de fala em texto em tempo real para reconhecimento de fala em streaming de baixa latência com base no Whisper

Introdução geral O RealtimeSTT é uma biblioteca de conversão de fala em texto eficiente e de baixa latência em tempo real, com detecção avançada de atividade de fala e ativação de palavras de alerta. Ela foi desenvolvida por Kolja Beigel para dar suporte a aplicativos que exigem conversão de fala em texto rápida e precisa...
7 meses atrás
03K
VBDeepSeek:使用DeepSeek生成四级单词学习资料的开源工具

VBDeepSeek: uma ferramenta de código aberto para gerar materiais de estudo de palavras da 4ª série usando o DeepSeek

Introdução abrangente O "Vocabulary Book by DeepSeek" é um projeto de código aberto desenvolvido com base no grande modelo do DeepSeek, com o objetivo de ajudar os alunos de inglês a dominar o vocabulário do College English Level 4 (CET-4) de forma eficiente. O projeto está hospedado no GitHub...
6 meses atrás
03K
KTransformers:大模型推理性能引擎:极致加速,灵活赋能

KTransformers: Mecanismo de desempenho de inferência de modelos grandes: aceleração extrema, capacitação flexível

KTransformers: uma estrutura Python de alto desempenho para romper o gargalo da inferência de modelos grandes. É mais do que uma simples ferramenta de execução de modelos, é um conjunto de mecanismos de otimização de desempenho extremo e uma plataforma flexível de capacitação de interface. KTransf...
6 meses atrás
03K
MCP Server ChatSum:依赖MCP在Claude中查询和总结微信聊天消息

ChatSum do servidor MCP: Confiando no MCP para consultar e resumir mensagens do WeChat no Claude

Introdução geral O MCP Server ChatSum é um projeto de código aberto criado para ajudar os usuários a consultar e resumir mensagens de bate-papo. O projeto está hospedado no GitHub e fornece um conjunto de ferramentas avançado que permite aos usuários consultar registros de bate-papo com base em parâmetros específicos e gerar resumos correspondentes...
5 meses atrás
03K
uni-api:轻量大模型API转换为OpenAI接口,YAML文件配置API渠道

uni-api: API de modelo grande e leve convertida para a interface OpenAI, arquivo YAML para configurar o canal da API

Introdução abrangente Sem front-end, canal de API de configuração de arquivo de configuração pura. Basta escrever um arquivo para executar uma estação de API própria. O documento tem um guia de configuração detalhado, de fácil compreensão. O uni-api é um gerenciamento unificado de um projeto de API de modelo grande, que permite uma configuração unificada...
9 meses atrás
03K
Srcbook:开源快速构建和迭代完整TypeScript项目的全栈AI工程师

Srcbook: engenheiros de IA de pilha completa de código aberto que criam e iteram rapidamente projetos completos de TypeScript

Introdução geral O Srcbook é uma plataforma de desenvolvimento de aplicativos centrada em TypeScript, projetada para criar e iterar rapidamente aplicativos da Web com assistentes de IA. Ele é compatível com o tempo de execução nativo, fornece uma interface de notebook interativa e permite que os usuários escrevam e executem códigos de back-end.
9 meses atrás
03K
GPT SoVITS:革命性的语音生成与语音克隆工具

GPT SoVITS: ferramentas revolucionárias de geração de fala e clonagem de fala

Introdução abrangente O GPT-SoVITS é uma ferramenta de conversão e síntese de fala de código aberto que combina o modelo GPT e a tecnologia de troca de voz SoVITS. A ferramenta é compatível com a conversão de texto para fala em tempo real com zero e poucas amostras, e com a migração de estilo de voz com apenas 5 segundos de amostras de áudio. Seus recursos incluem a conversão entre idiomas ...
11 meses atrás
03K
Raycast-G4F:通过Raycast免费使用GPT-4、Llama-3等多种 AI 模型

Raycast-G4F: Acesso gratuito a GPT-4, Llama-3 e muitos outros modelos de IA via Raycast!

Introdução geral O Raycast-G4F (GPT4Free) é uma poderosa extensão do Raycast que oferece aos usuários acesso gratuito a uma ampla variedade de modelos avançados de IA, incluindo GPT-4 e Llama-3. A extensão não só oferece transmissão de diálogo em tempo real...
7 meses atrás
03K
Promptimizer:优化大模型提示词的实验性库,自动优化 Prompt

Promptimizer: uma biblioteca experimental para otimizar palavras de prompt de modelos grandes, otimizando automaticamente o Prompt

Introdução geral O Promptimizer é uma biblioteca experimental de otimização de palavras de alerta projetada para ajudar os usuários a melhorar sistematicamente as palavras de alerta de seus sistemas de IA. Ao automatizar o processo de otimização, o Promptimizer pode melhorar o desempenho das palavras de alerta em tarefas específicas. Os usuários só precisam fornecer...
9 meses atrás
03K
Fabric:集成众多提示词的AI开源工作流框架,高效处理各种事务

Fabric: uma estrutura de fluxo de trabalho de código aberto de IA que integra muitas palavras-chave para lidar eficientemente com uma variedade de transações

Introdução geral O Fabric é uma estrutura de IA de código aberto desenvolvida por Daniel Miessler para simplificar e automatizar as tarefas diárias do computador e tornar a inteligência artificial mais fácil de usar. Ele ajuda os usuários de forma eficiente por meio de um design modular e de palavras de alerta predefinidas (Patterns)...
10 meses atrás
03K
Director:智能视频代理框架,用自然语言描述执行视频搜索、编辑和生成工作流

Director: estrutura de agente de vídeo inteligente para executar fluxos de trabalho de pesquisa, edição e geração de vídeo com descrições de linguagem natural

Introdução geral O Director é uma estrutura de código aberto projetada para simplificar e otimizar as interações e os fluxos de trabalho de vídeo por meio da criação de agentes de vídeo inteligentes. A estrutura é baseada na infraestrutura de "vídeo como dados" do VideoDB e é capaz de lidar com tarefas complexas de vídeo, como pesquisa, edição, compilação e geração...
8 meses atrás
03K
SkyReels-V1:生成高品质人体动作视频的开源视频模型

SkyReels-V1: Modelos de vídeo de código aberto para geração de vídeos de ação humana de alta qualidade

Introdução geral O SkyReels-V1 é um projeto de código aberto desenvolvido pela equipe da SkyworkAI com o objetivo de gerar conteúdo de vídeo de alta qualidade e centrado no ser humano. O projeto é baseado no modelo HunyuanVideo, por meio de dezenas de milhões de filmes e clipes de televisão de alta qualidade de micro...
6 meses atrás
03K
Aider:开源编程助手工具,使用AI助手进行代码编写和文件编辑

Aider: ferramenta de assistente de programação de código aberto, use o assistente de IA para escrever códigos e editar arquivos

Introdução geral O Aider é uma poderosa ferramenta de assistente de programação de IA de código aberto que ajuda os desenvolvedores a escrever, editar e refatorar códigos por meio de diálogo em linguagem natural. Como uma ferramenta interativa de programação de pares de IA, o Aider é compatível com muitas das principais linguagens de programação e pode ser integrado perfeitamente ao Git...
4 meses atrás
03K
RoomGPT:上传房间照片,使用AI重新设计

RoomGPT: Carregue a foto de um cômodo e redesenhe-o usando IA!

Introdução geral O RoomGPT é um projeto de código aberto desenvolvido pelo usuário do GitHub Nutlope que permite que os usuários façam upload de fotos de salas e gerem versões redesenhadas delas usando tecnologia de inteligência artificial. O projeto tem como objetivo dar aos usuários acesso a um design de interiores de nível profissional sem os caros honorários de um designer...
9 meses atrás
03K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: analisa cada tipo de documento em dados disponíveis no LLM, preservando todas as informações do documento, como tabelas e imagens, em sua totalidade.

Introdução geral O MegaParse é uma ferramenta poderosa e versátil de análise de documentos projetada para otimizar o processamento de dados para o Large Language Model (LLM). Não importa se você está trabalhando com texto, PDF, apresentações do PowerPoint ou documentos do Word, o MegaParse...
8 meses atrás
03K
AIHawk:智能求职助手,自动化投放简历(限英文)

AIHawk: assistente inteligente de busca de emprego, colocação automatizada de currículos (somente em inglês)

Introdução geral O Auto_Jobs_Applier_AIHawk é uma ferramenta para automatizar a busca de empregos usando tecnologia de inteligência artificial. Ela ajuda os usuários a automatizar a entrega de um grande número de currículos em um curto período de tempo e a personalizá-los de acordo com suas informações pessoais e intenções de busca de emprego. A ferramenta foi projetada para aumentar...
8 meses atrás
03K
EasyControl:将人像转为吉卜力风格图像的免费工具

EasyControl: uma ferramenta gratuita para transformar retratos em imagens no estilo Ghibli

Introdução geral O EasyControl é um projeto de código aberto, baseado na arquitetura do transformador de difusão (DiT) para fornecer um controle eficiente e flexível de geração de imagens. Entre eles, o Ghibli Control LoRA é um de seus recursos especiais, pois utiliza apenas 100 subprocessadores...
4 meses atrás
03K
MakeSense:免费使用的图像标注工具,提升计算机视觉项目效率

MakeSense: uma ferramenta de anotação de imagens de uso gratuito para aumentar a eficiência do projeto de visão computacional

Introdução geral O Make Sense é uma ferramenta gratuita de anotação de imagens on-line criada para ajudar os usuários a preparar rapidamente conjuntos de dados para projetos de visão computacional. Ela não requer instalação complicada, basta abrir um acesso ao navegador para usá-la, é compatível com vários sistemas operacionais e é ideal para pequenos projetos de aprendizagem profunda. Os usuários podem...
6 meses atrás
03K
TextDistiller:一键总结一整本书,高效提炼书籍内容,快速掌握核心思想

TextDistiller: resuma um livro inteiro em um clique, destile com eficiência o conteúdo do livro e compreenda rapidamente as ideias principais

Introdução abrangente O TextDistiller é uma ferramenta avançada orientada por IA, projetada para resumir livros capítulo por capítulo ou como um todo, fornecendo uma visão geral concisa e abrangente. Ao usar o TextDistiller, os usuários podem compreender rapidamente as ideias centrais e os pontos-chave de qualquer livro...
8 meses atrás
03K
Tabby:可集成到 VSCode 的本地自托管AI编程助手

Tabby: um assistente de programação de IA nativo auto-hospedado que se integra ao VSCode

Introdução geral O Tabby é um assistente de programação de IA de código aberto desenvolvido pela equipe do TabbyML que os usuários podem implantar localmente ou em um servidor. Ele oferece recursos semelhantes aos do GitHub Copilot, como preenchimento automático de código e perguntas e respostas inteligentes, mas o maior...
4 meses atrás
03K
Hoarder:开源 AI 书签管理工具,支持多种格式文件,智能标签分类、全文检索

Hoarder: ferramenta de código aberto de gerenciamento de favoritos de IA, suporte para vários formatos, classificação inteligente de tags, pesquisa de texto completo

Descrição geral O Hoarder é uma ferramenta de gerenciamento de favoritos auto-hospedada que suporta o armazenamento de links, notas, PDFs e imagens. Ele usa tecnologia de IA para marcação automática e oferece recursos de pesquisa de texto completo. Os usuários podem usar o plug-in do Chrome e o plug-in do Firefox...
8 meses atrás
03K
Moondream:批量反推图像提示词的开源轻量级视觉语言模型

Moondream: um modelo de linguagem visual leve e de código aberto para retropropagação em lote de palavras-chave de imagens

Introdução abrangente O Moondream é um modelo de linguagem visual leve e de código aberto projetado para permitir recursos de descrição de imagens por meio de técnicas de aprendizagem profunda e visão computacional. O modelo é capaz de ser executado com eficiência em uma variedade de plataformas e é particularmente adequado para dispositivos de borda.
7 meses atrás
03K
askrepo:源代码阅读工具,使用LLM分析代码,提供详细代码解释,支持多种编程语言

askrepo: ferramenta de leitura de código-fonte que usa o LLM para analisar o código, fornece explicações detalhadas do código e oferece suporte a várias linguagens de programação

Introdução geral O askrepo é uma ferramenta de leitura de código-fonte baseada no LLM (Large Language Model). Ela pode ler o conteúdo de um arquivo de texto gerenciado pelo Git em um diretório específico e enviá-lo para a API do Google Gemini para fornecer respostas a perguntas com base em prompts especificados...
9 meses atrás
03K
VideoRAG:理解超长视频的RAG框架,支持多模态检索和知识图谱构建

VideoRAG: uma estrutura RAG para entender vídeos ultralongos com suporte para recuperação multimodal e construção de gráficos de conhecimento

Introdução abrangente O VideoRAG é uma estrutura generativa aprimorada por recuperação, projetada para processar e compreender vídeos contextuais muito longos. A ferramenta combina uma base de conhecimento textual orientada por gráficos com codificação de contexto multimodal hierárquico para processar com eficiência em uma única GPU NVIDIA RTX 3090...
6 meses atrás
03K
DocsGPT:文档聊天助手,从单个文档、网站来源获取可靠的答案,支持本地部署

DocsGPT: Assistente de bate-papo de documentos, obtenha respostas confiáveis de documentos únicos, fontes da Web, suporte à implantação local

Introdução geral O DocsGPT é um assistente de documentação de código aberto projetado para simplificar o processo de consulta à documentação do projeto. Ao integrar um modelo avançado de GPT, os desenvolvedores podem facilmente fazer perguntas sobre o projeto e obter respostas precisas. O DocsGPT é compatível com a implantação local para garantir a privacidade dos dados...
9 meses atrás
03K
Sonic:音频驱动肖像图片生成面部表情生动的数字人口播视频

Sonic: Imagens de retrato com áudio geram vídeos de demonstração digital com expressões faciais vívidas

Introdução geral O Sonic é uma plataforma inovadora que se concentra na percepção global do áudio, com o objetivo de gerar animações de retratos vívidos impulsionadas pelo áudio. Desenvolvida por uma equipe de pesquisadores da Tencent e da Universidade de Zhejiang, a plataforma usa informações de áudio para controlar expressões faciais e movimentos da cabeça para gerar vídeos animados naturais e suaves.
4 meses atrás
03K
BrushEdit:腾讯ARC发布的图像修复和编辑的全能工具

BrushEdit: ferramenta multifuncional para restauração e edição de imagens lançada pela Tencent ARC

Introdução abrangente O BrushEdit é uma ferramenta multifuncional de reparo e edição de imagens desenvolvida pela Tencent ARC Labs. A ferramenta é baseada na mais recente tecnologia de IA e é capaz de identificar e reparar automaticamente defeitos em imagens, além de oferecer suporte à edição interativa pelos usuários.
8 meses atrás
03K
xyks:小猿口算逆向笔记,逆向工程与解密算法

xyks: notas reversas de cálculo oral de macacos pequenos, engenharia reversa e algoritmos de descriptografia

Introdução abrangente O Ape Mouth Calculator Reverse Notes é um projeto de código aberto que visa documentar e compartilhar o processo e os métodos de engenharia reversa do aplicativo Ape Mouth Calculator. O projeto contém uma variedade de ferramentas e técnicas reversas para usar as instruções, como Frida, dexdump etc., para ajudar os usuários a entender e decifrar a calculadora oral do macaco...
10 meses atrás
03K
Unsloth:高效微调和训练大语言模型的开源工具

Unsloth: uma ferramenta de código aberto para ajuste fino e treinamento eficientes de modelos de linguagem grandes

Introdução abrangente O Unsloth é um projeto de código aberto criado para fornecer ferramentas eficientes para o ajuste fino e o treinamento de grandes modelos de linguagem (LLMs). O projeto oferece suporte a vários modelos conhecidos, incluindo Llama, Mistral, Phi e Gemma.
6 meses atrás
02.9K
Second Me:本地训练拥有个人记忆和习惯的AI分身

Second Me: doppelgangers de IA treinados localmente com memórias e hábitos pessoais

O Second Me é um projeto de código aberto desenvolvido pela equipe do Mindverse que permite criar uma IA em seu computador que atua como um "sósia digital", aprendendo seus padrões e hábitos de fala por meio de suas palavras e memórias e tornando-se uma pessoa inteligente que entende suas...
5 meses atrás
02.9K
SciToolAgent:整合500+科研工具,自动化研究科研任务的智能体

SciToolAgent: uma inteligência que integra mais de 500 ferramentas de pesquisa para automatizar tarefas científicas e de pesquisa

Introdução abrangente O SciToolAgent é uma plataforma de ferramentas de código aberto desenvolvida pelo Centro de Inovação da Universidade de Zhejiang em Hangzhou (HICAI-ZJU). Ela integra mais de 500 ferramentas científicas por meio de gráficos de conhecimento (SciToolKG) e tecnologias de modelagem de big language para ajudar os pesquisadores a lidar com...
5 meses atrás
02.9K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes

Introdução geral O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grande (LLMs). Por padrão, a ferramenta usa a regra .gitignore para ignorar arquivos desnecessários e usa...
7 meses atrás
02.9K
HiOllama:与本地Ollama模型交互的简洁聊天界面

HiOllama: uma interface de bate-papo limpa para interagir com modelos nativos do Ollama

Introdução geral O HiOllama é uma interface amigável criada em Python e Gradio, projetada para interagir com os modelos do Ollama. Ela oferece uma interface da Web simples e intuitiva que suporta geração de texto em tempo real e recursos de gerenciamento de modelos. Os usuários podem ajustar parâmetros como temperatura e a maioria...
9 meses atrás
02.9K
YTSage:YouTube下载器,免费下载YouTube视频,提取音频,获取字幕

YTSage: downloader do YouTube, download gratuito de vídeos do YouTube, extração de áudio, obtenção de legendas

Introdução geral O YTSage é um downloader moderno do YouTube com uma interface PyQt6 limpa. Os usuários podem usar o YTSage para fazer download de vídeos de qualquer qualidade, extrair áudio, obter legendas (inclusive legendas geradas automaticamente) e visualizar as meta...
8 meses atrás
02.9K
simple-one-api:一键集成多种免费大模型API,统一对外提供 OpenAI 接口

simple-one-api: integração com um clique de uma variedade de APIs de modelos grandes e gratuitos, interface OpenAI externa unificada

Introdução abrangente simple-one-api é um projeto de código aberto desenvolvido para simplificar a integração de várias APIs de modelo grande. Ele é compatível com APIs compatíveis com OpenAI, como Thousand Sails Big Model Platform, Xunfei Starfire Big Model, Tencent Mixed Element, MiniMax e Deep-Seek...
9 meses atrás
02.9K
DCT-Net:照片和视频转绘为动漫风格化的开源工具

DCT-Net: uma ferramenta de código aberto para transpainting de fotos e vídeos para estilização de anime

Introdução geral O DCT-Net é um projeto de código aberto desenvolvido pela DAMO Academy e pelo Instituto de Tecnologia da Computação Wang Xuan, da Universidade de Pequim, que visa à transformação estilizada de imagens em anime. O projeto utiliza técnicas de aprendizagem profunda por meio da tradução calibrada por domínio (Domain-Calibrat...
7 meses atrás
02.9K
Fish Agent:端到端AI语音克隆助手,实时语音对话助理,Fish Speech衍生项目

Fish Agent: assistente de clonagem de voz de IA de ponta a ponta, assistente de diálogo de voz em tempo real, projeto derivado do Fish Speech

Introdução abrangente Fish Speech Derivative Project O Fish Agent é um sistema revolucionário de clonagem de fala de IA de ponta a ponta desenvolvido com base na arquitetura do modelo V0.1 3B. Como um sistema de processamento de clonagem de fala de ponta a ponta, seu recurso mais importante é o uso de...
7 meses atrás
02.9K
E2B:安全云沙箱中的AI代码运行平台

E2B: plataforma de execução de código de IA em uma sandbox segura na nuvem

Introdução geral A E2B é uma plataforma de código aberto projetada para executar códigos gerados por IA em uma sandbox segura na nuvem. Ela oferece suporte a uma ampla variedade de linguagens e estruturas de programação e fornece um ambiente virtual isolado para garantir a segurança e a confiabilidade da execução do código. A E2B é adequada para uma variedade de cenários de aplicativos de IA, incluindo particionamento de dados...
7 meses atrás
02.9K
Aide:强化VSCode开发体验的AI助手扩展,一键注释、转换、UI生成代码

Aide: extensão auxiliar de IA que aprimora a experiência de desenvolvimento do VSCode, anotação com um clique, conversão e geração de código na interface do usuário

Introdução geral O AIDE (AI-assisted Development Extension) é uma poderosa extensão de desenvolvimento assistido por IA para o VSCode, com foco no fornecimento de assistência de programação de IA exclusiva e útil. Ela é diferente do GitHu...
7 meses atrás
02.9K
HivisionIDPhotos:开源智能AI证件照制作工具

HivisionIDPhotos: ferramenta de código aberto para a criação de IDs com fotos inteligentes com IA

Introdução abrangente O HivisionIDPhotos é uma ferramenta leve de código aberto para produção de fotos de documentos com IA, capaz de identificar de forma inteligente a cena da foto do usuário e a codificação, para gerar uma foto de documento padrão de acordo com uma variedade de especificações. A ferramenta é compatível com cores e tamanhos de fundo personalizados e, no futuro, também lançará...
11 meses atrás
02.9K
ANP:实现智能代理间安全高效通信的开源协议

ANP: um protocolo de código aberto para comunicação segura e eficiente entre agentes inteligentes

Introdução geral O AgentNetworkProtocol (ANP, para abreviar) é um projeto de protocolo de código aberto, hospedado no GitHub, voltado para o fornecimento de soluções de comunicação seguras e eficientes para agentes inteligentes (agentes de IA). Ele funciona por meio de uma arquitetura de três camadas - identidade e criptografia...
5 meses atrás
02.9K
CR-Mentor:知识库+LLM 驱动的GitHub智能代码审查导师

CR-Mentor: Base de conhecimento + Mentor de revisão de código inteligente orientado por LLM para GitHub

Introdução abrangente O CR-Mentor é uma ferramenta inteligente de revisão de código que combina uma base de conhecimento profissional com o poder da Modelagem de Linguagem Grande (LLM). Ele não só oferece suporte à revisão de código para todas as linguagens de programação, mas também personaliza critérios de revisão exclusivos e áreas de foco para equipes com base nas práticas recomendadas acumuladas na base de conhecimento. Por meio de...
9 meses atrás
02.9K
TreeGPT:可视化树状对话的AI聊天界面

TreeGPT: Interface de bate-papo com IA para visualizar conversas baseadas em árvores

Introdução geral O TreeGPT é um aplicativo de bate-papo de código aberto baseado no Next.js, que se concentra na visualização de conversas com grandes modelos de linguagem (LLMs, por exemplo, GPTs) por meio de estruturas de gráficos em árvore (gráficos acíclicos direcionados, DAGs), substituindo os métodos de bate-papo lineares tradicionais para melhorar a velocidade e a...
6 meses atrás
02.9K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Introdução abrangente O NV Ingest (NVIDIA Ingest) é um conjunto de microsserviços de acesso antecipado projetado para analisar centenas de milhares de PDFs não estruturados complexos e confusos e outros documentos corporativos. Ele pode converter esses documentos em metadados e texto para serem incorporados à recuperação...
7 meses atrás
02.9K
R2R:多模态内容解析并结合知识图谱与混合搜索的先进AI检索(RAG)系统

R2R: um sistema avançado de recuperação de IA (RAG) para análise de conteúdo multimodal e combinação de gráfico de conhecimento com pesquisa híbrida

Introdução abrangente O R2R (RAG to Riches) é um sistema avançado de recuperação de IA que oferece suporte à funcionalidade Retrieval Augmented Generation (RAG) com recursos prontos para produção. Criado em uma API RESTful em contêiner, o sistema oferece análise de conteúdo multimodal, funcionalidade de pesquisa híbrida...
8 meses atrás
02.9K
AingDesk:个人电脑一键安装AI模型和聊天界面(含DeepSeek)

AingDesk: instalação com um clique de modelos de IA e interfaces de bate-papo em computadores pessoais (com DeepSeek)

Introdução geral O AingDesk é um software gratuito e de código aberto projetado para ajudar os usuários a implementar e executar facilmente vários modelos de IA em seus computadores locais. Seja um modelo DeepSeek ou Llama, o AingDesk permite uma implementação simples, passo a passo...
6 meses atrás
02.9K
Orate:集成知名语音生成、语音转录与变声模型的统一API

Orate: uma API unificada para integrar a geração de fala, a transcrição de fala e a modelagem de voz do Well-Known

Introdução geral O Orate é um kit de ferramentas de IA voltado para a geração e transcrição de fala. Ele fornece uma API unificada que se integra perfeitamente aos principais provedores de IA, como OpenAI, ElevenLabs e AssemblyAI, para ajudar os usuários a criar...
6 meses atrás
02.9K
Cognita:构建模块化RAG应用的开源框架,快速测试多样RAG策略

Cognita: uma estrutura de código aberto para criar aplicativos RAG modulares e testar rapidamente diversas estratégias RAG

Introdução abrangente A Cognita é uma estrutura de código aberto desenvolvida pela TrueFoundry para simplificar o desenvolvimento de aplicativos baseados em RAG (Retrieval-Augmented Generation). A estrutura fornece um sistema estruturado, mod...
7 meses atrás
02.9K
Muyan-TTS:个性化播客语音训练与合成

Muyan-TTS: treinamento e síntese de fala em podcasts personalizados

O Synthesis Muyan-TTS é um modelo de conversão de texto em fala (TTS) de código aberto projetado para cenários de podcasting. Ele é pré-treinado com mais de 100.000 horas de dados de áudio de podcast e suporta síntese de fala de amostra zero para gerar fala natural de alta qualidade. O modelo é baseado no Llama-3.2-3...
3 meses atrás
02.9K
ai-gradio:轻松集成多种AI模型,基于Gradio构建多模态应用

ai-gradio: Integre facilmente vários modelos de IA e crie aplicativos multimodais com base no Gradio

Introdução geral O ai-gradio é um kit de ferramentas Python de código aberto projetado para ajudar os desenvolvedores a integrar e usar facilmente vários modelos de IA. Criado com base no Gradio, o projeto oferece uma interface unificada para dar suporte a vários modelos e serviços de IA. Seja texto, fala ou vídeo...
6 meses atrás
02.9K
Kolors:生成高质量图像的文本到图像模型,支持生成中文海报

Kolors: modelo de texto para imagem para gerar imagens de alta qualidade, com suporte para gerar pôsteres em chinês

Introdução abrangente O Kolors é um modelo de geração de texto para imagem em grande escala desenvolvido pela equipe do Racer, com base em técnicas de difusão potencial. O modelo é treinado em bilhões de pares de dados de texto-imagem e é capaz de gerar imagens de alta qualidade, complexas e semanticamente precisas, com suporte para entradas em chinês e inglês.
8 meses atrás
02.9K
XRAG:优化检索增强生成系统的可视化评估工具

XRAG: uma ferramenta de avaliação visual para otimizar os sistemas de geração de aprimoramento de recuperação

Introdução abrangente O XRAG (eXamining the Core) é uma estrutura de benchmarking projetada para avaliar os componentes subjacentes dos sistemas avançados de geração de aumento de recuperação (RAG). Ao traçar o perfil e analisar cada módulo central, o XRAG fornece informações sobre como diferentes configurações e componentes afetam o RAG...
7 meses atrás
02.9K
Supermemory:导入书签和网页内容构建个人知识库

Supermemória: importação de favoritos e conteúdo da Web para criar uma base de conhecimento pessoal

Introdução geral O Supermemory é um projeto de código aberto criado para ajudar os usuários a construir seu "segundo cérebro". Com uma poderosa extensão do Chrome e tecnologia de IA, ele permite que os usuários salvem, organizem e recuperem facilmente dados de páginas da Web, favoritos do Twitter...
6 meses atrás
02.9K