🚀 Convite para experimentar: o primeiro software de programação inteligente AI IDE da China Download da versão chinesa do TraeO DeepSeek-R1 e o Doubao-pro estão disponíveis em uma base ilimitada!

Total de 66 artigos

Tags: extração e limpeza de documentos Página 2

Markdownify MCP Server：基于MCP协议将各种内容转换为Markdown格式-首席AI分享圈

Markdownify MCP Server: converte vários conteúdos no formato Markdown com base no protocolo MCP.

Introdução geral O Markdownify MCP Server é uma ferramenta de código aberto baseada no Model Context Protocol, hospedada no GitHub e criada pelo desenvolvedor Zach Caceres. Ele se concentra na combinação de vários tipos de arquivos (por exemplo, PDF, imagens, áudio, documentos de escritório etc.) com...

2025-02-22Ferramentas de IA Projeto de código aberto de IA Serviços MCP Extração e limpeza de documentos

CodeWeaver：将代码结构和内容自动生成Markdown文档-首席AI分享圈

CodeWeaver: gere automaticamente documentos Markdown a partir da estrutura e do conteúdo do código.

Introdução geral O CodeWeaver é uma ferramenta de linha de comando projetada para criar bibliotecas de código em documentos Markdown únicos e fáceis de navegar. Ele gera uma representação estruturada da hierarquia de arquivos de um projeto, examinando recursivamente os diretórios e incorporando o conteúdo de cada arquivo em blocos de código. A ferramenta foi projetada com o objetivo de simplificar...

2025-02-16Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Versão em chinês do Trae Primeiro convite para download: uso ilimitado do DeepSeek-R1 após o registro!

Habilite o modo de programação inteligente Builder, uso ilimitado do DeepSeek-R1 e DeepSeek-V3, experiência mais suave do que a versão internacional. Basta digitar os comandos chineses, sem conhecimento de programação, para escrever seus próprios aplicativos.

2025-04-15

Kreuzberg: ferramenta de código aberto para extrair texto de qualquer documento

Introdução abrangente Kreuzberg é uma biblioteca para simplificar a extração de texto de arquivos PDF, projetada para fornecer uma solução de extração de texto simples e sem complicações. A biblioteca é especialmente adequada para serviços RAG (Retrieval-Augmented Generation) que exigem extração de texto. A Kreuzberg oferece suporte à operação local, controle fácil e...

2025-02-15Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Instructor：简化大语言模型结构化输出工作流的Python库-首席AI分享圈

Instrutor: uma biblioteca Python para simplificar fluxos de trabalho de saída estruturada para grandes modelos de linguagem

Introdução abrangente O Instructor é uma biblioteca Python popular projetada para processar a saída estruturada de modelos de linguagem grande (LLMs). Criada com base no Pydantic, ela fornece uma API simples, transparente e fácil de usar para gerenciar a validação de dados, a repetição e o fluxo de respostas.

2025-02-10Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

zChunk: uma estratégia genérica de fragmentação semântica baseada no Llama-70B

Introdução abrangente O zChunk é uma nova estratégia de fragmentação desenvolvida pela ZeroEntropy para fornecer uma solução para a fragmentação semântica genérica. A estratégia se baseia no modelo Llama-70B e otimiza o processo de fragmentação de um documento, solicitando a geração de fragmentações e garantindo a manutenção de uma alta relação sinal-ruído durante a recuperação de informações. zChunk é especialmente adequado para...

2025-02-10Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Pulse: Soluções de negócios para processamento de documentos e extração de dados

Introdução abrangente O Pulse é uma plataforma inteligente voltada para o processamento de documentos e a extração de dados, projetada para ajudar empresas e desenvolvedores a analisar e processar com eficiência uma ampla variedade de documentos complexos. Por meio de sua avançada tecnologia de visão computacional e processamento multimodal, o Pulse é capaz de processar com precisão documentos de texto, imagens, tabelas e outros formatos...

2025-02-09Ferramentas de IA Extração e limpeza de documentos

Rowfill: extração em lote de informações estruturadas de documentos e análise automatizada

Introdução abrangente O Rowfill é uma plataforma de processamento de documentos de código aberto projetada para profissionais do conhecimento. Ele usa tecnologias avançadas de IA para extrair, analisar e processar dados de documentos, imagens e PDFs complexos. O Rowfill oferece suporte a modelos nativos de linguagem grande (LLMs) e modelos visuais OpenAI para garantir que os dados sejam ocultos...

2025-02-06Ferramentas de IA Projeto de código aberto de IA Análise de dados de IA Extração e limpeza de documentos

PPTX2MD: ferramenta especial para converter arquivos PPTX em Markdown

Introdução geral O PPTX2MD é uma ferramenta de código aberto criada para converter arquivos PPTX do PowerPoint para o formato Markdown. Desenvolvida pelo usuário do GitHub ssine, a ferramenta suporta a retenção de cabeçalhos, listas, formatação de texto (como negrito, itálico, cores e hiperlinks), imagens e tabelas em vários formatos.PPTX2MD...

2025-02-03Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Repomix: empacotamento da base de código em um arquivo de texto para recuperação de modelos grandes

Introdução geral O Repomix (anteriormente conhecido como Repopack) é uma ferramenta de código aberto projetada para empacotar toda uma base de código em um único arquivo compatível com IA. Essa ferramenta permite que os desenvolvedores disponibilizem facilmente sua base de código para grandes modelos de linguagem (como Claude, ChatGPT e Gemini) para análise e processamento...

2025-01-21Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes

Introdução geral O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grande (LLMs). A ferramenta usa a regra .gitignore por padrão para ignorar arquivos desnecessários e usa o histórico do Git para inferir arquivos importantes...

2025-01-21Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

LlamaParse：Llamaindex推出的高品质解析文档，提取数据服务（每日免费提取1000页）-首席AI分享圈

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).

Introdução geral O LlamaParse é uma ferramenta avançada de análise de documentos que pode processar documentos complexos, como PDF, PowerPoint, Word e planilhas, e convertê-los em dados estruturados. O LlamaParse oferece várias maneiras de usá-lo, incluindo uma API REST autônoma, pacotes Python, TypeScr...

2025-01-20Ferramentas de IA Serviços abertos de IA Extração e limpeza de documentos

UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)

Introdução abrangente O UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para identificar automaticamente layouts de documentos e classificar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não só economiza muito tempo na classificação de dados, mas também ajuda...

2025-01-20Ferramentas de IA Serviços abertos de IA Extração e limpeza de documentos

Zerox：PDF、DOCX、图像转换为Markdown，视觉模型高精度OCR-首席AI分享圈

Zerox: PDF, DOCX, conversão de imagem para Markdown, OCR de alta precisão de modelo visual

Introdução abrangente O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos em formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres). O Zerox é compatível com as linguagens de programação Node e Python, ...

2025-01-19Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

Introdução geral O SemHash é uma ferramenta leve e flexível para desduplicação de conjuntos de dados por similaridade semântica. Ele combina a rápida geração de incorporação do Model2Vec com a eficiente pesquisa de similaridade ANN (Approximate Nearest Neighbour) do Vicinity.O SemHash é compatível com a desduplicação de um único conjunto de dados (por exemplo, limpeza de...

2025-01-17Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Parseur: extração automatizada de dados de documentos, extração de texto estruturado de vários documentos

Introdução geral O Parseur é um software líder de extração de dados de IA projetado para ajudar os usuários a extrair automaticamente dados de texto de PDFs, e-mails e outros documentos. Com o Parseur, os usuários podem converter facilmente dados não estruturados em dados estruturados e enviá-los a vários aplicativos. O software é amplamente ...

2025-01-17Ferramentas de IA Extração e limpeza de documentos

AI Functions：将输入内容转换为结构化输出的（API）服务-首席AI分享圈

Funções de IA: um serviço (API) para converter conteúdo de entrada em saídas estruturadas

Introdução abrangente O Weco AI Functions é uma plataforma avançada projetada para ajudar os usuários a criar e implementar rapidamente funções de IA. Com a simples descrição de tarefas, os usuários podem gerar padrões de saída estruturados com testes A/B e monitoramento observacional. A plataforma suporta prototipagem sem código, permitindo que até mesmo usuários não técnicos...

2025-01-16Ferramentas de IA Serviços abertos de IA Extração e limpeza de documentos

NV Ingest：解析复杂格式文档，提取多模态数据为元数据和文本-首席AI分享圈

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Introdução abrangente O NV Ingest (NVIDIA Ingest) é um conjunto de microsserviços de acesso antecipado projetado para analisar centenas de milhares de PDFs não estruturados complexos e confusos e outros documentos corporativos. Ele pode converter esses documentos em metadados e texto para incorporação em sistemas de recuperação.

2025-01-14Ferramentas de IA Projeto de código aberto de IA Extração e limpeza de documentos

Trellis：转换非结构文档为结构化EXCEL格式数据，PDF快速转表格（付费）-首席AI分享圈

Trellis: converte documentos não estruturados em dados estruturados no formato EXCEL, PDF de forma rápida (pago)

Introdução geral O Trellis é uma plataforma de dados focada na conversão de fontes de dados não estruturadas complexas em um formato SQL estruturado. Por meio de seu poderoso mecanismo de IA, o Trellis é capaz de processar uma ampla gama de fontes de dados, como documentos financeiros, chamadas de voz e e-mails, e convertê-los em SQL que pode ser usado por equipes de dados e operações...

2025-01-13Ferramentas de IA Extração e limpeza de documentos

Ollama OCR：使用Ollama中视觉模型提取图像中的文本-首席AI分享圈

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a vários ...

2025-01-10Ferramentas de IA Projeto de código aberto de IA OCR Extração e limpeza de documentos

página anterior
1
2
3
4
página seguinte
Total de 4 páginas