Projeto de código aberto de IA

Total de 1020 artigos
TripoSG:单张图像生成高分辨率3D建模数字资产

TripoSG: geração de ativos digitais modelados em 3D de alta resolução a partir de uma única imagem

Introdução geral O TripoSG é um projeto de código aberto desenvolvido pela equipe de pesquisa VAST AI para gerar modelos 3D de alta qualidade a partir de uma única imagem. O projeto usa tecnologia de conversor de fluxo retificador em grande escala, combinada com treinamento supervisionado híbrido e conjuntos de dados de alta qualidade, para permitir que os modelos 3D gerados tenham...
5 meses atrás
02.5K
Inbox Zero:轻松实现收件箱零邮件,借助 AI 帮助你对邮件进行归类、过滤、处理。

Inbox Zero: alcance facilmente zero e-mails em sua caixa de entrada, com a ajuda da IA para ajudá-lo a categorizar, filtrar e processar seus e-mails.

Descrição geral O Inbox Zero é um aplicativo de gerenciamento de e-mail de código aberto projetado para ajudar os usuários a obter rapidamente zero e-mails na caixa de entrada com um assistente de IA. O aplicativo oferece uma variedade de recursos, incluindo resposta automática, arquivamento, rotulagem e encaminhamento de e-mails, gerenciamento e cancelamento de assinatura de boletins informativos, bloqueio de e-mails frios, acompanhamento...
8 meses atrás
02.4K
GraphAgent:构建知识图谱,自动化任务规划与执行

GraphAgent: criação de gráficos de conhecimento para automatizar o planejamento e a execução de tarefas

Introdução abrangente O GraphAgent é um sistema de corpo inteligente automatizado que integra geração de gráficos, planejamento de tarefas e execução de tarefas. Ele é capaz de processar dados estruturados e não estruturados, criar gráficos de dependência semântica complexos e executar com eficiência as tarefas do usuário por meio de autoplanejamento e correspondência de ferramentas.
7 meses atrás
02.4K
RealtimeVoiceChat:低延迟与AI进行自然口语对话

RealtimeVoiceChat: diálogo falado natural de baixa latência com IA

Introdução geral O RealtimeVoiceChat é um projeto de código aberto voltado para conversas naturais e em tempo real com inteligência artificial via voz. Os usuários usam um microfone para inserir sua voz, e o sistema captura o áudio por meio de um navegador, converte-o rapidamente em texto, e um modelo de linguagem grande (LLM) gera de volta...
3 meses atrás
02.4K
Hunyuan3D-2:腾讯开源的高分辨率3D模型生成工具

Hunyuan3D-2: ferramenta de geração de modelos 3D de alta resolução de código aberto da Tencent

Introdução geral O Hunyuan3D-2 é um projeto de código aberto desenvolvido pela Tencent para gerar modelos 3D de alta resolução a partir de texto ou imagens. Ele consiste em dois componentes principais: modelo de geração de forma (Hunyuan3D-DiT) e modelo de geração de textura (Hunyuan3D...
5 meses atrás
02.4K
Dia:生成超现实多人对话的文本转语音模型

Dia: um modelo de conversão de texto em fala para gerar diálogos hiper-realistas para vários jogadores

Introdução geral O Dia é um modelo de conversão de texto em fala (TTS) de código aberto desenvolvido pela Nari Labs, voltado para a geração de áudio de diálogo hiper-realista. Ele transforma scripts de texto em diálogos realistas com vários caracteres em um único processo, oferece suporte ao controle de emoções e entonação e até mesmo gera representações não verbais...
4 meses atrás
02.4K
茴香豆:基于LLM(大型语言模型) 的群聊助手

Fennel Bean: assistente de bate-papo em grupo baseado em LLM (Large Language Model)

Introdução abrangente O HuixiangDou é um assistente de bate-papo em grupo baseado em modelo de linguagem em grande escala (LLM), projetado para lidar com cenários de bate-papo em grupo por meio de um processo de pré-processamento, rejeição e resposta em três estágios. Ele é capaz de responder às perguntas dos usuários sem causar inundação de informações. O projeto fornece um site completo ...
6 meses atrás
02.4K
TheoremExplainAgent:利用 Manim 生成5分钟以上数学讲解动画视频

TheoremExplainAgent: Gere vídeos animados explicativos de matemática de mais de 5 minutos com o Manim

Introdução geral O TheoremExplainAgent é um projeto inovador desenvolvido pelo TIGER AI Lab para transformar teoremas matemáticos e científicos complexos em animações de vídeo fáceis de entender usando técnicas de inteligência artificial. A ferramenta é baseada no Modelo de Linguagem Grande (LLM)...
6 meses atrás
02.4K
SongGen:自动生成歌曲的单阶段自回归Transformer

SongGen: um transformador autorregressivo de estágio único para geração automática de músicas

Introdução abrangente O SongGen é um modelo transformador autorregressivo de estágio único de código aberto projetado para tarefas de geração de texto para música. O modelo é capaz de gerar músicas com vocais e faixas de apoio a partir da entrada de texto. O SongGen oferece controle refinado sobre uma ampla gama de atributos musicais...
6 meses atrás
02.4K
Trackers:用于视频对象跟踪的开源工具库

Trackers: biblioteca de ferramentas de código aberto para rastreamento de objetos de vídeo

Introdução geral Trackers é uma biblioteca de ferramentas Python de código aberto voltada para o rastreamento de vários objetos em vídeo. Ela integra vários dos principais algoritmos de rastreamento, como o SORT e o DeepSORT, e permite que os usuários combinem diferentes modelos de detecção de objetos (como o YOLO...
3 meses atrás
02.4K
OmniSQL:将自然语言转化为高质量SQL查询的模型

OmniSQL: um modelo para transformar a linguagem natural em consultas SQL de alta qualidade

Introdução geral O OmniSQL é um projeto de código aberto desenvolvido pela equipe do RUCKBReasoning e hospedado no GitHub. Sua função principal é transformar perguntas de linguagem natural inseridas pelo usuário em instruções de consulta SQL de alta qualidade, para ajudar os usuários a lidar facilmente com o número de ...
4 meses atrás
02.4K
Deep Research:基于AI的深度研究助手,提供高效的研究工具和报告生成功能

Deep Research: um assistente de pesquisa profunda baseado em IA que fornece ferramentas de pesquisa eficientes e recursos de geração de relatórios

Introdução geral O Deep Research é um assistente de pesquisa baseado em IA projetado para realizar pesquisas profundas iterativas combinando mecanismos de pesquisa, rastreamento da Web e modelos de linguagem grandes. O projeto foi lançado por dzhng no GitHub com o objetivo de fornecer um gerador de pesquisa profunda fácil de usar...
4 meses atrás
02.4K
CoT-Lab:探索人机协作迭代思考的实验性对话工具

CoT-Lab: uma ferramenta de diálogo experimental para explorar o pensamento iterativo sobre a colaboração entre humanos e computadores

O CoT-Lab é uma interface experimental para explorar novos paradigmas na colaboração entre humanos e computadores. Com base na Teoria da Carga Cognitiva e nos Princípios de Aprendizagem Ativa, o CoT-Lab facilita o alinhamento cognitivo profundo entre humanos e a Inteligência Artificial (IA) por meio da criação de relacionamentos de "parceiros pensantes". O projeto tem como objetivo...
6 meses atrás
02.4K
DeepResearcher:基于强化学习驱动AI研究复杂问题

DeepResearcher: IA de condução baseada em aprendizado por reforço para estudar problemas complexos

Introdução abrangente O DeepResearcher é um projeto de código aberto desenvolvido pela equipe GAIR-NLP da Universidade Shanghai Jiao Tong. É uma ferramenta de pesquisa inteligente baseada em modelos de linguagem grandes (LLMs), treinados de ponta a ponta em ambientes reais da Web por meio da aprendizagem por reforço (RL). O projeto ...
4 meses atrás
02.4K
Omni-RGPT:图像和视频区域级理解多模态大模型,提升视觉内容分析能力

Omni-RGPT: um grande modelo multimodal para compreensão em nível de região de imagens e vídeos para aprimorar a análise de conteúdo visual

Introdução abrangente O Omni-RGPT é um modelo multimodal de linguagem grande projetado para permitir a compreensão de imagens e vídeos em nível de região. Com a introdução da técnica Token Mark, o Omni-RGPT é capaz de destacar a região-alvo no espaço de recursos visuais e indicar a região-alvo por meio de dicas de região (por exemplo, caixas ou...
7 meses atrás
02.4K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: gere automaticamente documentos Markdown a partir da estrutura e do conteúdo do código.

Introdução geral O CodeWeaver é uma ferramenta de linha de comando projetada para criar bibliotecas de código em documentos Markdown únicos e fáceis de navegar. Ele gera uma representação estruturada da hierarquia de arquivos de um projeto, examinando recursivamente os diretórios e incorporando o conteúdo de cada arquivo em blocos de código. Essa ferramenta...
6 meses atrás
02.4K
Grok-Mirror:一键部署可盈利的Grok镜像站

Grok-Mirror: implantação com um clique de sites espelho lucrativos do Grok

Introdução abrangente O Grok-Mirror é uma estação de espelho doméstica Grok3 de implantação rápida sem servidor, baseada na construção de uma estação de espelho Grok operável. Ele permite que os usuários implementem quiosques Grok locais com um clique via Docker.Grok é uma inteligência artificial da xAI...
5 meses atrás
02.4K
自动解析PDF内容并提取文字与表格的开源服务

Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto

Introdução abrangente Analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta oferece suporte à funcionalidade de OCR e pode converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos...
4 meses atrás
02.4K
SegAnyMo:从视频中自动分割任意运动物体的开源工具

SegAnyMo: uma ferramenta de código aberto para segmentar automaticamente objetos móveis arbitrários em vídeos

Introdução geral O SegAnyMo é um projeto de código aberto desenvolvido por uma equipe de pesquisadores da UC Berkeley e da Universidade de Pequim, incluindo membros como Nan Huang. Essa ferramenta se concentra no processamento de vídeo e pode identificar e segmentar automaticamente objetos móveis arbitrários em um vídeo, como pessoas, animais ou...
4 meses atrás
02.4K
Local Deep Research:本地运行的生成深度研究报告工具

Local Deep Research: uma ferramenta executada localmente para gerar relatórios de pesquisa aprofundados

Introdução geral O Local Deep Research é um assistente de pesquisa de IA de código aberto projetado para ajudar os usuários a realizar pesquisas profundas e gerar relatórios detalhados para problemas complexos. Ele oferece suporte à execução local, permitindo que os usuários concluam tarefas de pesquisa sem depender de serviços em nuvem. A ferramenta ...
3 meses atrás
02.4K
Skywork-R1V:昆仑万文开源的图文混合多模态推理模型

Skywork-R1V: um modelo de raciocínio multimodal híbrido gráfico de código aberto por Kunlun Wanwen

Introdução geral O Skywork-R1V é um modelo de raciocínio multimodal de código aberto desenvolvido pela equipe do SkyworkAI (Kunlun Wanwei) e publicado no GitHub. Ele é capaz de processar imagens e textos simultaneamente, realizar raciocínio lógico em várias etapas e é particularmente bom na análise de problemas complexos de imagens. Esse...
5 meses atrás
02.4K
AI Logo:AI快速生成定制化品牌Logo

Logotipo da IA: a IA gera rapidamente logotipos de marca personalizados

Introdução geral O AI Logo é um projeto de aplicativo de IA de código aberto com o objetivo de ajudar os usuários a gerar rapidamente logotipos de marcas personalizados por meio de inteligência artificial. Ele combina técnicas avançadas de IA, como Stable Diffusion e DeepAI, para permitir que os usuários insiram logotipos simples de marcas...
5 meses atrás
02.4K
Zev:用自然语言快速查询终端命令的CLI工具

Zev: uma ferramenta CLI para consulta rápida de comandos de terminal em linguagem natural

Introdução geral O Zev é uma ferramenta de interface de linha de comando (CLI) fácil de usar que ajuda os usuários a consultar e gerar rapidamente comandos de terminal em linguagem natural. Em vez de ter de lembrar a sintaxe de comandos complexos, o Zev gera comandos de terminal descrevendo suas necessidades em linguagem cotidiana. Baseado no Ope...
4 meses atrás
02.4K
OmniParser:用户界面截图解析成结构化元素,便于大模型理解和操作

OmniParser: capturas de tela da interface do usuário analisadas em elementos estruturados para facilitar a compreensão e a manipulação de modelos grandes

Introdução geral O OmniParser é uma ferramenta desenvolvida pela Microsoft para analisar as capturas de tela da interface do usuário em elementos estruturados e fáceis de entender. Essa ferramenta melhora significativamente a capacidade do GPT-4V de gerar ações precisas na área de interface correspondente.
6 meses atrás
02.4K
CogView4:生成中英双语高清图片的开源文生图模型

CogView4: um modelo gráfico de código aberto para gerar imagens bilíngues de alta definição em chinês e inglês

Introdução geral O CogView4 é um modelo de texto para gráfico de código aberto desenvolvido pelo KEG Lab (THUDM) da Universidade de Tsinghua, com foco na conversão de descrições de texto em imagens de alta qualidade. Ele é compatível com a entrada de palavras-chave bilíngues e é especialmente bom para compreender pistas chinesas e gerar imagens com caracteres chineses, não...
5 meses atrás
02.4K
HN中文播客:自动抓取热门科技文章,AI生成中文总结并转换为播客

Podcast em chinês da HN: coleta automaticamente artigos populares de tecnologia, a IA gera resumos em chinês e os converte em podcasts

Introdução geral O projeto do podcast chinês do Hacker News é uma plataforma inovadora baseada na tecnologia de IA, com o objetivo de obter automaticamente artigos populares do Hacker News todos os dias e gerar resumos em chinês e conteúdo de podcast por meio de IA. O projeto é liderado por ccbikai ...
6 meses atrás
02.4K
Step1X-Edit:自然语言指令编辑图像的开源工具

Step1X-Edit: uma ferramenta de código aberto para editar imagens com instruções em linguagem natural

Introdução geral O Step1X-Edit é uma estrutura de edição de imagens de código aberto desenvolvida pela equipe de IA da Stepfun e hospedada no GitHub. Ele combina um modelo multimodal de linguagem grande (Qwen-VL) e um transformador de difusão (DiT) para permitir que os usuários criem imagens por meio de um método simples e natural.
3 meses atrás
02.4K
OpenSearch-SQL:将自然语言转为SQL查询的开源工具

OpenSearch-SQL: uma ferramenta de código aberto para transformar linguagem natural em consultas SQL

Introdução abrangente O OpenSearch-SQL é um projeto de código aberto, uma ferramenta poderosa de conversão de texto em SQL que pode transformar as descrições de linguagem natural do usuário em instruções de consulta SQL, para ajudar as pessoas que não estão familiarizadas com o banco de dados a acessar facilmente os dados. Esse projeto foi desenvolvido pela O...
5 meses atrás
02.4K
GPT Researcher:利用本地和网络数据,生成全面、详实的研究报告

Pesquisador GPT: gere relatórios de pesquisa abrangentes e detalhados usando dados locais e baseados na Web

Introdução abrangente O GPT Researcher é uma ferramenta de agente autônomo baseada no Large Language Model (LLM), projetada para realizar pesquisas locais e na Web e gerar relatórios de pesquisa detalhados. A ferramenta oferece desempenho estável e velocidade mais rápida ao paralelizar o trabalho do agente, garantindo que as informações sejam precisas...
4 meses atrás
02.4K
Plandex:支持超长上下文的开源AI编码助手

Plandex: um assistente de codificação de IA de código aberto com suporte para contextos ultralongos

Introdução geral O Plandex é um assistente de codificação de IA de código aberto de ponta a ponta, projetado para projetos de software grandes e complexos. Ele pode planejar e executar tarefas em várias etapas, lidar com contextos de até 2 milhões de tokens e oferecer suporte a mais de 30 linguagens de programação.
4 meses atrás
02.3K
Story-Flicks:输入主题自动生成儿童短故事视频

Story-Flicks: Insira tópicos para gerar automaticamente vídeos de histórias curtas para crianças

Introdução abrangente O Story-Flicks é uma ferramenta de IA de código aberto focada em ajudar os usuários a gerar rapidamente vídeos de histórias em HD. Os usuários só precisam inserir um tópico de história, e o sistema gerará o conteúdo da história por meio de um grande modelo de linguagem e combinará as imagens, o áudio e as legendas gerados pela IA para gerar um vídeo completo...
5 meses atrás
02.3K
Paper to Podcast:把学术论文转换为多人对话播客

Paper to Podcast: conversão de artigos acadêmicos em podcasts de conversas com várias pessoas

Introdução geral O Paper to Podcast é uma ferramenta de código aberto especializada na transformação de artigos de pesquisa acadêmica em podcasts animados e divertidos. Ela usa tecnologia de inteligência artificial para transformar um artigo em formato PDF em um diálogo entre três personagens - o anfitrião, o aluno e o especialista - para tornar a pesquisa complexa...
4 meses atrás
02.3K
AgentIQ:灵活连接和管理AI智能体的开源工具

AgentIQ: uma ferramenta de código aberto para conexão e gerenciamento flexíveis de inteligências de IA

Introdução geral O AgentIQ é uma ferramenta de código aberto da NVIDIA projetada para ajudar os desenvolvedores a conectar e gerenciar eficientemente as inteligências de IA. Ela permite que inteligências de diferentes estruturas colaborem perfeitamente, conectem dados e ferramentas empresariais e criem fluxos de trabalho como funções de chamada. O maior destaque da ferramenta...
5 meses atrás
02.3K
UNO:支持单主体和多主体定制化图像生成工具(适合电商配图)

UNO: suporte para ferramentas de geração de imagens personalizadas de assunto único e de vários assuntos (adequadas para gráficos de comércio eletrônico)

UNO é uma estrutura de geração de imagens de código aberto desenvolvida pela ByteDance Intelligent Creation Team. Ele se baseia no modelo FLUX.1 e se concentra na geração de imagens personalizadas de objeto único e de vários objetos por meio de uma abordagem de generalização "menos para mais".
4 meses atrás
02.3K
PrimisAI Nexus:构建可扩展AI多智能体系统与任务自动化的轻量框架

PrimisAI Nexus: uma estrutura leve para criar sistemas de inteligência múltipla de IA dimensionáveis e automação de tarefas

Introdução geral O PrimisAI Nexus é uma estrutura Python leve e de código aberto hospedada no GitHub e desenvolvida pela equipe do PrimisAI, com o objetivo de ajudar os usuários a criar e gerenciar sistemas corporais multiinteligentes de IA escalonáveis por meio da Modelagem de Linguagem Grande (LLM), permitindo...
5 meses atrás
02.3K
SkyPilot:在任何云端高效运行AI与批处理任务的开源框架

SkyPilot: uma estrutura de código aberto para executar com eficiência tarefas de IA e em lote em qualquer nuvem

Introdução geral O SkyPilot é uma estrutura de código aberto iniciada pelo Sky Computing Lab da Universidade da Califórnia, em Berkeley, projetada para ajudar os usuários a executar com eficiência tarefas de IA e processamento em lote em qualquer infraestrutura de nuvem. Ele é compatível com mais de 14 serviços de nuvem (incluindo ...
6 meses atrás
02.3K
Shandu:多轮收集分析信息的AI研究自动化工具

Shandu: uma ferramenta de automação de pesquisa de IA para coleta e análise de informações em várias rodadas

Introdução geral O Shandu é um sistema de pesquisa de código aberto baseado em inteligência artificial hospedado no GitHub e criado pelo desenvolvedor jolovicdev. Ele utiliza as tecnologias LangChain e LangGraph e tem como objetivo fornecer informações automatizadas, abrangentes e...
4 meses atrás
02.3K
Fast-Agent:声明式语法和MCP集成快速构建多智能体工作流

Fast-Agent: gramática declarativa e integração de MCP para criar rapidamente fluxos de trabalho corporais multiinteligentes

Introdução geral O Fast-Agent é uma ferramenta de código aberto mantida pela equipe evalstate no GitHub, projetada para ajudar os desenvolvedores a definir, testar e criar rapidamente fluxos de trabalho com várias informações. Ela se baseia em uma sintaxe declarativa simples e suporta o uso de MCP (Mode...
5 meses atrás
02.3K
Onyx:连接企业知识库的智能AI聊天平台

Onyx: uma plataforma inteligente de bate-papo com IA que conecta bases de conhecimento corporativas

Introdução geral O Onyx (anteriormente conhecido como Danswer) é uma plataforma de bate-papo com IA de código aberto desenvolvida pela equipe do onyx-dot-app para ajudar as organizações a integrar e gerenciar documentos, aplicativos e dados de funcionários. Ele oferece uma funcionalidade avançada de bate-papo com suporte para conectar qualquer modelo de linguagem grande (LLM...
5 meses atrás
02.3K
文颜:一键美化Markdown文章,适配多个自媒体平台格式(开源本地客户端)

Wenyan: embelezar artigos Markdown com um clique, adaptar-se a vários formatos de plataforma de mídia própria (cliente local de código aberto)

Introdução abrangente O WenYan é uma ferramenta projetada para a composição e o embelezamento de artigos Markdown, que oferece suporte à conversão de artigos Markdown editados em um formato adequado para WeChat, Zhihu, manchetes de hoje e outras plataformas. Os usuários podem copiar o artigo com um clique, o artigo diretamente...
7 meses atrás
02.3K
Together Open Deep Research:生成带索引的深度研究报告

Together Open Deep Research: Geração de relatórios de pesquisa profunda indexados

Introdução geral O Open Deep Research é uma ferramenta de pesquisa profunda desenvolvida e de código aberto pela equipe Together AI e hospedada no GitHub. Ela simula o processo de pesquisa humana por meio de um fluxo de trabalho de IA multiagente, gerando relatórios de pesquisa detalhados...
4 meses atrás
02.3K
InfiniteYou:保留人脸特征的照片生成与编辑工具

InfiniteYou: uma ferramenta de geração e edição de fotos que preserva as características faciais

Introdução geral O InfiniteYou é um projeto de código aberto desenvolvido pela equipe da ByteDance Intelligent Creation. Ele se baseia na tecnologia Diffusion Transformers (DiTs), usando o modelo FLUX.1-dev. A função principal é permitir que os usuários carreguem uma foto e insiram uma descrição de texto, gerando...
5 meses atrás
02.3K
Coding-Tutor:提供个性化编程指导的智能教学助手

Coding-Tutor: um assistente de ensino inteligente que fornece orientação de programação personalizada

Introdução geral O Coding-Tutor é um projeto de código aberto hospedado no GitHub e criado pelo desenvolvedor iwangjian para oferecer aos alunos uma experiência de ensino de programação personalizada. Ele usa tecnologia de IA conversacional para aprender com base no histórico de conhecimento do usuário e...
6 meses atrás
02.3K
Mad Professor:辅助阅读和分析学术论文的AI工具

Mad Professor: uma ferramenta de IA para auxiliar na leitura e análise de artigos acadêmicos

Introdução geral O Mad Professor (Grumpy Professor Reads Papers) é uma ferramenta acadêmica de IA de código aberto desenvolvida para pesquisadores e estudantes para simplificar a leitura e a análise de artigos acadêmicos. Ela integra processamento de PDF, tradução de IA, recuperação de RAG, perguntas de IA...
3 meses atrás
02.3K
GAG:利用大模型模拟人类行为生成社交关系图谱

GAG: Geração de um gráfico de relacionamento social usando um modelo grande para simular o comportamento humano

Introdução geral O GraphAgent é uma estrutura de código aberto hospedada no GitHub e desenvolvida pela Ji-Cather. Ele usa o Large Language Model (LLM) para simular o comportamento humano e gerar gráficos sociais dinâmicos com atributos textuais. Essa ferramenta é adequada para mídias sociais on-line...
5 meses atrás
02.3K
Text2Voice:基于硅基流动API的文本转语音图形界面

Text2Voice: uma interface gráfica de conversão de texto em fala baseada em APIs de fluxo baseadas em silício

Introdução geral O Text2Voice é uma ferramenta de código aberto que fornece funcionalidade de conversão de texto em fala com base em uma API de mobilidade baseada em silício, com uma interface gráfica do usuário (GUI) limpa como seu melhor recurso. Ela foi criada pelo desenvolvedor Sheldon Lee no GitHub para permitir...
4 meses atrás
02.3K
Deep Searcher:企业私有文档高效检索与智能问答

Deep Searcher: recuperação eficiente de documentos privados da empresa e perguntas e respostas inteligentes

Descrição geral O Deep Searcher é uma ferramenta que combina modelos avançados de big language (como o DeepSeek e o OpenAI) e bancos de dados vetoriais (como o Milvus) projetados para pesquisar, avaliar e raciocinar com base em dados privados, fornecendo respostas altamente precisas...
6 meses atrás
02.3K
VOP:提取复杂图表与数学公式的OCR工具

VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas

Introdução abrangente O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para trabalhar com documentos acadêmicos e educacionais complexos. Ele pode extrair texto, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar...
4 meses atrás
02.3K
HumanOmni:分析人类视频情感和动作的多模态大模型

HumanOmni: um macromodelo multimodal para análise de emoções e ações em vídeos humanos

Introdução geral O HumanOmni é um grande modelo multimodal de código aberto desenvolvido pela equipe HumanMLLM e hospedado no GitHub. Ele se concentra na análise de vídeos humanos e pode processar imagens e sons para ajudar a entender emoções, ações e conteúdo de diálogos. O projeto usou 2...
5 meses atrás
02.3K
OpenDeepSearch:支持智能推理的开源搜索工具

OpenDeepSearch: uma ferramenta de pesquisa de código aberto que suporta raciocínio inteligente

Introdução geral O OpenDeepSearch é uma ferramenta de pesquisa de código aberto desenvolvida pela equipe sentient-agi. Ela combina Large Language Modelling (LLM) e Intelligent Reasoning Agents para permitir que os usuários pesquisem informações em páginas da Web e obtenham respostas precisas de forma simples. Esse ...
5 meses atrás
02.3K
Tarsier:生成高质量视频描述的开源视频理解模型

Tarsier: um modelo de compreensão de vídeo de código aberto para gerar descrições de vídeo de alta qualidade

Introdução abrangente O Tarsier é uma família de modelos de linguagem de vídeo de código aberto desenvolvida pela ByteDance para gerar descrições de vídeo de alta qualidade. Ela consiste em uma estrutura simples: o CLIP-ViT processa quadros de vídeo, combinado com um modelo de linguagem grande (LLM) para analisar...
4 meses atrás
02.3K
TestDriver:使用AI自动测试软件的智能工具

TestDriver: uma ferramenta inteligente para automatizar testes de software usando IA

Introdução geral O TestDriver é um site que usa tecnologia de inteligência artificial para ajudar os desenvolvedores a testar software. Ele automatiza a tarefa de testar software simulando ações humanas, como clicar em um mouse ou digitar um texto. No centro do site está um "computador usando um agente de IA" que opera como uma pessoa real...
4 meses atrás
02.3K
Moffee:将Markdown转为PPT幻灯片

Moffee: Converter Markdown em apresentação de slides PPT

Introdução geral O Moffee é uma ferramenta de código aberto que transforma arquivos Markdown em apresentações de slides profissionais de forma rápida, simples e eficiente. Os usuários só precisam escrever o conteúdo do Markdown, e a Moffee pode lidar automaticamente com o layout, a paginação e o estilo, eliminando a necessidade de digitar manualmente...
4 meses atrás
02.3K
GenXD:生成任意3D和4D场景视频的开源框架

GenXD: estrutura de código aberto para gerar vídeos de cenas arbitrárias em 3D e 4D

Introdução geral O GenXD é um projeto de código aberto, desenvolvido pela Universidade Nacional de Cingapura (NUS) e pela equipe da Microsoft. Ele se concentra na geração de cenas arbitrárias em 3D e 4D, para resolver a geração de 3D e 4D no mundo real devido à insuficiência de dados e à complexidade do design do modelo causada pelo problema. O projeto foi desenvolvido pela ...
4 meses atrás
02.3K
Abogen:将多种文本格式转换为有声读物的工具

Abogen: uma ferramenta para converter vários formatos de texto em audiolivros

Introdução geral O Abogen é uma ferramenta de código aberto projetada para converter rapidamente arquivos ePub, PDF ou de texto simples em áudio de alta qualidade. Ele usa o modelo Kokoro-82M para gerar uma fala natural e suave e oferece suporte à geração simultânea de legendas, o que é adequado para a produção de audiolivros...
3 meses atrás
02.3K
AgentLaboratory:利用智能代理完成科研全流程的开源工具

AgentLaboratory: uma ferramenta de código aberto para completar todo o processo de pesquisa científica com agentes inteligentes

Introdução geral O AgentLaboratory é uma ferramenta de código aberto hospedada no GitHub e desenvolvida por Samuel Schmidgall. Ela usa agentes inteligentes orientados pelo Modelo de Linguagem Grande (LLM) para ajudar os pesquisadores com todo o processo de...
5 meses atrás
02.3K
Dify-Plus:为Dify开发的企业内部管理后台

Dify-Plus: um back-end de gerenciamento no local para a Dify

Introdução abrangente O Dify-Plus é uma plataforma de desenvolvimento de aplicativos de IA baseada no desenvolvimento secundário do projeto de código aberto Dify. Ele adiciona um novo centro de gerenciamento baseado no Dify e otimiza a funcionalidade para cenários corporativos. O projeto era inicialmente para uso interno das empresas, mas depois descobriu que a comunidade tinha necessidades semelhantes...
5 meses atrás
02.2K
OneLine:生成热点事件时间轴的AI工具

OneLine: uma ferramenta de IA para gerar linhas do tempo de eventos importantes

Introdução geral O OneLine é uma ferramenta de geração de linha do tempo de eventos quentes de código aberto hospedada no GitHub e desenvolvida pelo usuário chengtx809. Ele gera rapidamente uma linha do tempo de eventos por palavras-chave inseridas pelo usuário, mostrando a hora, o título, a descrição e as pessoas relacionadas ao evento...
4 meses atrás
02.2K
GraphGen:利用知识图谱生成合成数据微调语言模型

GraphGen: ajuste fino de modelos de linguagem usando gráficos de conhecimento para gerar dados sintéticos

Introdução abrangente O GraphGen é uma estrutura de código aberto desenvolvida pelo OpenScienceLab, um laboratório de IA em Xangai, hospedado no GitHub, com foco na otimização do ajuste fino supervisionado de modelos de linguagem grande (LLMs), orientando a geração de dados sintéticos por meio de gráficos de conhecimento. Ele foi desenvolvido a partir de ...
3 meses atrás
02.2K
MiniMind-V:1小时训练26M参数视觉语言模型

MiniMind-V: treinamento de 1 hora de um modelo de linguagem visual com 26 milhões de parâmetros

Introdução geral O MiniMind-V é um projeto de código aberto, hospedado no GitHub, criado para ajudar os usuários a treinar um modelo de linguagem visual (VLM) leve com apenas 26 milhões de parâmetros em menos de uma hora. Ele se baseia no modelo de linguagem MiniMind, com novos recursos visuais...
4 meses atrás
02.2K
Dolphin:面向亚洲语言识别与语音转文本模型

Dolphin: reconhecimento de idiomas asiáticos e modelagem de fala para texto para idiomas asiáticos

Introdução abrangente O Dolphin é um modelo de código aberto desenvolvido pela DataoceanAI e pela Universidade de Tsinghua, com foco no reconhecimento de fala e de idioma para idiomas asiáticos. Ele é compatível com 40 idiomas do Leste Asiático, Sul da Ásia, Sudeste Asiático e Oriente Médio, além de 22 dialetos chineses...
4 meses atrás
02.2K
Company Researcher:公司研究工具,输入公司网址以获取详细研究信息

Pesquisador de empresas: uma ferramenta de pesquisa de empresas, insira o endereço da Web de uma empresa para obter informações de pesquisa detalhadas.

Descrição geral O Company Researcher (Pesquisador de empresas) é uma ferramenta gratuita e de código aberto criada para ajudar os usuários a obter uma visão geral rápida e abrangente de qualquer empresa. Basta inserir o URL da empresa e a ferramenta coletará informações abrangentes da Web, apresentando informações sobre a organização, seus produtos...
4 meses atrás
02.2K
ChatAnyone:从照片生成半身数字人肖像视频的工具

ChatAnyone: uma ferramenta para gerar vídeos de retratos humanos digitais de meio corpo a partir de fotografias

Introdução geral O ChatAnyone é um projeto inovador desenvolvido pela equipe do HumanAIGC. Ele usa técnicas de inteligência artificial para gerar vídeos digitais de retratos humanos com movimentos da parte superior do corpo a partir de uma única foto e entrada de áudio. O projeto baseia-se em um modelo de difusão de movimento hierárquico que gera movimentos da cabeça...
4 meses atrás
02.2K
Orquestra: Criando equipes de IA inteligentes para um desenvolvimento colaborativo multiinteligência mais fácil e eficiente

Orquestra: Criando equipes de IA inteligentes para um desenvolvimento colaborativo multiinteligência mais fácil e eficiente

O Orchestra é uma estrutura Python leve e inovadora que se concentra na criação de sistemas colaborativos de várias inteligências com base no Large Language Model (LLM). Ele emprega um método exclusivo de organização de inteligências para que várias inteligências de IA possam trabalhar em harmonia como uma orquestra sinfônica. Ao modelar ...
7 meses atrás
02.2K
OpenHealthForAll:个人健康数据管理AI助手,上传检查报告定制健康计划

OpenHealthForAll: assistente de IA para gerenciamento de dados pessoais de saúde, upload de relatórios de exames para um plano de saúde personalizado

Introdução geral O OpenHealthForAll é um projeto de código aberto criado para ajudar os usuários a gerenciar e entender seus dados pessoais de saúde. Ao aproveitar a tecnologia de inteligência artificial, o OpenHealthForAll fornece um assistente de saúde executado localmente para ajudar os usuários a gerenciar melhor...
6 meses atrás
02.2K
AgentGPT:创建并运行自动化AI智能体的开源项目

AgentGPT: um projeto de código aberto para criar e executar inteligências de IA automatizadas

Introdução geral O AgentGPT é um projeto de código aberto desenvolvido pela equipe do Reworkd e hospedado no GitHub, projetado para permitir que os usuários criem, configurem e implementem autonomamente inteligências de IA por meio de um navegador. Os usuários simplesmente definem uma meta, e o AgentGPT pode...
5 meses atrás
02.2K
Claude生成深度研究报告的MCP服务

Serviço MCP da Claude para gerar relatórios de pesquisa aprofundados

Introdução geral O MCP Server Deep Research é uma ferramenta de código aberto que gera automaticamente relatórios de pesquisa estruturados para problemas complexos por meio de inteligência artificial e pesquisa na Web. Os usuários inserem uma pergunta de pesquisa, e a ferramenta divide a pergunta, procura informações confiáveis, avalia a credibilidade da fonte...
3 meses atrás
02.2K
LitServe:快速部署企业级通用AI模型推理服务

LitServe: implantação rápida de serviços de inferência de modelos de IA de uso geral de nível empresarial

Introdução abrangente O LitServe é um mecanismo de serviço de modelo de IA de código aberto da Lightning AI, desenvolvido com base na FastAPI, com foco na implantação rápida de serviços de inferência para modelos de IA de uso geral. Ele oferece suporte a modelos que variam de modelos de linguagem grande (LLMs),...
5 meses atrás
02.2K
HunyuanVideoGP:支持低端GPU运行的混元视频生成模型

HunyuanVideoGP: um modelo de geração de vídeo híbrido com suporte para operação de GPU de baixo custo

Introdução geral O HunyuanVideoGP é um modelo de geração de vídeo em grande escala desenvolvido pela DeepBeepMeep e projetado para usuários de GPUs de baixo custo. O modelo é uma versão aprimorada do modelo original do Hunyuan Video, reduzindo significativamente os requisitos de memória e memória gráfica...
6 meses atrás
02.2K
Thera:任意尺寸图像放大、去锯齿的开源工具

Thera: ampliação de imagens de qualquer tamanho, ferramentas de código aberto de remoção de serrilhado

Introdução geral O Thera é uma ferramenta de super-resolução de imagens de código aberto desenvolvida por uma equipe da ETH Zurich e da Universidade de Zurich. Ela pode ampliar imagens de baixa resolução em escalas arbitrárias, como 2x, 3,14x ou até mesmo múltiplos não inteiros, e...
4 meses atrás
02.2K
混元Turbo S:腾讯推出的快思考大模型(开放申请)

Hybrid Turbo S: o grande modelo da Tencent para pensar rápido (aberto para inscrições)

Introdução abrangente O Tencent Turbo S é uma nova geração do modelo de pensamento rápido desenvolvido pela própria Tencent, que foi lançado no site oficial da Tencent Cloud em 27 de fevereiro de 2025. Ele é diferente dos modelos tradicionais de pensamento lento (por exemplo, Deepseek R1, Hybrid T1), pois pode realizar "segunda resposta", cuspir...
5 meses atrás
02.2K
ColossalAI:提供高效大规模AI模型训练解决方案

ColossalAI: fornecendo soluções eficientes de treinamento de modelos de IA em grande escala

Introdução abrangente O ColossalAI é uma plataforma de código aberto desenvolvida pela HPC-AI Technologies, com o objetivo de fornecer uma solução eficiente e econômica para treinamento e inferência de modelos de IA em grande escala. Ao oferecer suporte a várias estratégias paralelas, gerenciamento de memória heterogênea e treinamento de precisão mista, o ColossalAI...
6 meses atrás
02.2K
LangWatch:基于DSPy 框架监控与优化LLM流程的可视化工具

LangWatch: uma ferramenta de visualização para monitorar e otimizar os processos de LLM com base na estrutura DSPy

Introdução abrangente O LangWatch é uma plataforma abrangente projetada para operações de Modelo de Linguagem Grande (LLM), fornecendo monitoramento, análise, avaliação, gerenciamento de conjuntos de dados e otimização de dicas. A plataforma é baseada na estrutura DSPy da Universidade de Stanford e foi projetada para ajudar os usuários a gerenciar e otimizar melhor...
7 meses atrás
02.2K