Aprendizagem pessoal com IA
e orientação prática
Espelho de desenho CyberKnife
Total de 66 artigos

Tags: extração e limpeza de documentos

Chatlog:提取和查询微信聊天记录的开源工具-首席AI分享圈

Chatlog: ferramenta de código aberto para extrair e consultar os registros de bate-papo do WeChat

Introdução geral O Chatlog é uma ferramenta de código aberto que se concentra na extração e consulta de registros de bate-papo do banco de dados local do WeChat. Ele é compatível com as versões 3.x e 4.0 do WeChat, abrangendo os sistemas Windows e macOS. Os usuários podem usar a linha de comando, a interface de terminal ou a operação da API HTTP para visualizar os registros de bate-papo, os contatos...

VOP:提取复杂图表与数学公式的OCR工具-首席AI分享圈

VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas

Introdução abrangente O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para processar documentos acadêmicos e educacionais complexos. Ele pode extrair textos, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar estruturas adequadas para treinamento de aprendizado de máquina...

DevDocs:快速抓取并整理技术文档的MCP服务-首席AI分享圈

DevDocs: um serviço MCP para rastrear e organizar rapidamente a documentação técnica

Introdução geral O DevDocs é uma ferramenta de código aberto totalmente gratuita desenvolvida pela equipe da CyberAGI e hospedada no GitHub. Projetada para programadores e desenvolvedores de software, ela parte do URL de um documento técnico, rastreia automaticamente as páginas relevantes e as organiza em arquivos Markdown ou JSON concisos. Ele tem um...

自动解析PDF内容并提取文字与表格的开源服务-首席AI分享圈

Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto

Introdução abrangente Analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta é compatível com a funcionalidade OCR e permite converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos: modelo visual (Vis...

基于Workers AI免费将多种文件转为Markdown格式-首席AI分享圈

Converta vários arquivos para o formato Markdown gratuitamente com base em Workers AI

Introdução geral O serverless-markdown-convertor é uma ferramenta de código aberto gratuita, baseada no desenvolvimento do Cloudflare Worker e do Workers AI, que pode converter uma variedade de arquivos para o formato Markdown. Ele é compatível com PDF, imagens, documentos do Office, HTML e outros tipos de arquivos comuns, sem a necessidade de ...

GPT-Crawler:自动爬取网站内容生成知识库文件-首席AI分享圈

GPT-Crawler: rastreamento automático do conteúdo do site para gerar documentos da base de conhecimento

Introdução geral O GPT-Crawler é uma ferramenta de código aberto desenvolvida pela equipe do BuilderIO e hospedada no GitHub. Ele rastreia o conteúdo da página inserindo um ou mais URLs de sites, gerando um arquivo de conhecimento estruturado (output.json) para criar GPTs personalizados ou assistentes de IA. Os usuários podem...

pure.md:网址前插入“pure.md/”即可提取干净的文本-首席AI分享圈

pure.md: insira "pure.md/" na frente do URL para extrair o texto limpo.

Introdução geral O pure.md é uma ferramenta projetada para agentes e desenvolvedores de IA que se concentra na conversão rápida de conteúdo ou arquivos da Web para o formato Markdown. Ela contorna as restrições anti rastreamento por meio de serviços de proxy, extrai os dados principais de uma página da Web e gera um arquivo Markdown conciso. Seja uma página da Web dinâmica, um arquivo PDF...

Cloudsquid:上传文档并描述要求智能提取结构化数据-首席AI分享圈

Cloudsquid: faça upload de documentos e descreva os requisitos para a extração inteligente de dados estruturados

Introdução geral A Cloudsquid é uma empresa fundada em 2023 em Berlim, Alemanha, com foco na simplificação do processamento de documentos com inteligência artificial. Seu principal produto é uma plataforma on-line de extração de dados que permite aos usuários fazer upload de PDFs, imagens, áudio, vídeo etc. e simplesmente informar quais dados precisam ser extraídos, por exemplo, "Find...

PDF Craft:PDF扫描文件转Markdown的开源工具-首席AI分享圈

PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown

Introdução geral O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pelo oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus e-books. A ferramenta é executada por meio de um modelo de IA local sem a necessidade de uma conexão com a Internet, o que preserva a privacidade e...

Supametas.AI:提取非结构化数据为LLM高可用数据-首席AI分享圈

Supametas.AI: extração de dados não estruturados em dados altamente disponíveis do LLM

Introdução abrangente A Supametas.AI é uma plataforma de processamento de dados especializada em organizar a desordem de páginas da Web, documentos, áudio e vídeo em dados estruturados que a IA pode usar. Ele suporta a coleta de dados de várias fontes, incluindo links da Web, APIs, arquivos locais etc., e depois os exporta para o formato JSON ou Markdown. Plataforma...

MarkPDFDown:基于多模态模型将PDF转为Markdown文件-首席AI分享圈

MarkPDFDown: converte PDF em Markdown com base em um modelo multimodal

Introdução geral O MarkPDFDown é uma ferramenta de código aberto. Ela aproveita o modelo multimodal de big language para converter arquivos PDF em formato Markdown. O desenvolvedor é o usuário do GitHub jorben. O objetivo dessa ferramenta é simples: tornar os documentos PDF mais fáceis de editar e compartilhar. Ela reconhece títulos,...

SmolDocling:小体积高效处理文档的视觉语言模型-首席AI分享圈

SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume

O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M, hospedado na plataforma Hugging Face. O SmolDocling é um modelo de linguagem visual (VLM) baseado no SmolVLM-256M, hospedado na plataforma Hugging Face. É o menor VLM do mundo, com apenas 256 milhões de parâmetros, e sua principal função é...

飞桨 PP-TableMagic:复杂表格结构化信息提取神器-首席AI分享圈

Flying Paddle PP-TableMagic: extração de informações estruturadas para tabelas complexas

O objetivo do reconhecimento de tabelas é analisar tabelas em imagens, identificar com precisão as estruturas das tabelas e os locais das células e reduzi-las a formatos de tabelas estruturadas (por exemplo, HTML). Na atual era da informação, uma grande quantidade de dados tabulares importantes ainda existe em um estado não estruturado (por exemplo, imagens de estatísticas de informações em documentos digitalizados, p...

Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元-首席AI分享圈

Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1

Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas impulsionou profundamente o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente a transmissão do conhecimento humano...

Firecrawl MCP Server:基于 Firecrawl 的网页爬虫 MCP 服务-首席AI分享圈

Servidor MCP Firecrawl: Serviço MCP de rastreador da Web baseado no Firecrawl

Introdução abrangente O Firecrawl MCP Server é uma ferramenta de código aberto desenvolvida pela MendableAI, com base na implementação do protocolo MCP (Model Context Protocol), integrada à API do Firecrawl para fornecer rastreamento avançado da Web e extração de dados. Ele foi projetado para modelos de IA (como Cursor, Cla...

olmOCR:PDF文档转换为文本,支持表格、公式和手写内容的识别-首席AI分享圈

olmOCR: conversão de documentos PDF em texto, suporte a tabelas, fórmulas e reconhecimento de conteúdo manuscrito

Introdução abrangente O olmOCR é uma ferramenta de código aberto desenvolvida pela equipe do AllenNLP no Allen Institute for Artificial Intelligence (AI2) que se concentra na conversão de arquivos PDF em texto linearizado e é especialmente adequada para a preparação de conjuntos de dados e treinamento de modelos de linguagem em larga escala (LLMs). Ele ...

par_scrape:智能提取网页数据的爬虫工具-首席AI分享圈

par_scrape: uma ferramenta de rastreamento para extração inteligente de dados da Web

Introdução geral O par_scrape é uma ferramenta de rastreamento da Web de código aberto baseada em Python, lançada no GitHub pelo desenvolvedor Paul Robello, criada para ajudar os usuários a extrair dados de páginas da Web de forma inteligente. Ele integra duas poderosas tecnologias de automação de navegador, Selenium e Playwright, e combina...

PDF-Extract-Kit:提取复杂结构PDF内容的开源工具-首席AI分享圈

PDF-Extract-Kit: Extraia a estrutura complexa do conteúdo do PDF da ferramenta de código aberto

Introdução abrangente O PDF-Extract-Kit é um projeto de código aberto desenvolvido pela equipe do OpenDataLab, com foco na extração eficiente de conteúdo de alta qualidade de documentos PDF complexos e diversos. Ele integra tecnologia avançada de análise de documentos, suporte para detecção de layout, reconhecimento de fórmulas, extração de tabelas e OCR e outras funções para ...

Crawl4LLM:为LLM预训练提供的高效网页爬取工具-首席AI分享圈

Crawl4LLM: uma ferramenta eficiente de rastreamento da Web para pré-treinamento de LLM

Introdução abrangente O Crawl4LLM é um projeto de código-fonte aberto desenvolvido em conjunto pela Universidade de Tsinghua e pela Universidade Carnegie Mellon, com foco na otimização da eficiência do rastreamento da Web para pré-treinamento de modelos grandes (LLM). Ele reduz significativamente o rastreamento ineficaz por meio da seleção inteligente de dados de páginas da Web de alta qualidade, alegando ser capaz de rastrear originalmente 100 páginas da Web de trabalho...

pt_BRPortuguês do Brasil