Aprendizagem pessoal com IA
e orientação prática
Beanbag Marscode1
Total de 27 artigos

Tags: OCR

VOP:提取复杂图表与数学公式的OCR工具-首席AI分享圈

VOP: ferramenta de OCR para extração de diagramas complexos e fórmulas matemáticas

Introdução abrangente O Versatile OCR Program é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto projetada para processar documentos acadêmicos e educacionais complexos. Ele pode extrair textos, tabelas, fórmulas matemáticas, diagramas e esquemas de PDFs, imagens e outros documentos e gerar estruturas adequadas para treinamento de aprendizado de máquina...

自动解析PDF内容并提取文字与表格的开源服务-首席AI分享圈

Analise automaticamente o conteúdo do PDF e extraia texto e tabelas de serviços de código aberto

Introdução abrangente Analisa automaticamente o layout de documentos PDF, identifica texto, títulos, imagens, tabelas, fórmulas e outros elementos na página e determina sua ordem correta. A ferramenta é compatível com a funcionalidade OCR e permite converter PDFs digitalizados em texto pesquisável. Ela é executada no Docker e oferece dois modelos: modelo visual (Vis...

RolmOCR:识别手写和倾斜字符的文档OCR模型-首席AI分享圈

RolmOCR: modelo de OCR de documentos para reconhecimento de caracteres manuscritos e inclinados

Introdução abrangente O RolmOCR é uma ferramenta de reconhecimento óptico de caracteres (OCR) de código aberto desenvolvida pela equipe da Reducto AI, com base no modelo de linguagem visual Qwen2.5-VL-7B. Ela pode extrair texto de imagens e arquivos PDF mais rapidamente do que ferramentas semelhantes, como o olmOCR, com menor consumo de memória.

uniOCR:跨平台开源的文字识别工具-首席AI分享圈

uniOCR: ferramenta de reconhecimento de texto de código aberto multiplataforma

Introdução geral O uniOCR é uma ferramenta de reconhecimento de texto de código aberto desenvolvida pela equipe mediar-ai. Ela é baseada na linguagem Rust e é compatível com os sistemas macOS, Windows e Linux. Ele é compatível com os sistemas macOS, Windows e Linux. Os usuários podem usá-lo para extrair texto de imagens, a operação é simples e gratuita. O principal recurso do uniOCR é o suporte a várias plataformas...

PDF Craft:PDF扫描文件转Markdown的开源工具-首席AI分享圈

PDF Craft: documentos digitalizados em PDF para ferramentas de código aberto Markdown

Introdução geral O PDF Craft é uma ferramenta de código aberto projetada para digitalizar PDFs de livros e convertê-los para o formato Markdown. Ela foi desenvolvida pelo oomol-lab e hospedada no GitHub para usuários que gostam de organizar seus e-books. A ferramenta é executada por meio de um modelo de IA local sem a necessidade de uma conexão com a Internet, o que preserva a privacidade e...

SmolDocling:小体积高效处理文档的视觉语言模型-首席AI分享圈

SmolDocling: um modelo de linguagem visual para o processamento eficiente de documentos em um pequeno volume

O SmolDocling é um modelo de linguagem visual (VLM) desenvolvido pela equipe do ds4sd em colaboração com a IBM, com base no SmolVLM-256M, hospedado na plataforma Hugging Face. O SmolDocling é um modelo de linguagem visual (VLM) baseado no SmolVLM-256M, hospedado na plataforma Hugging Face. É o menor VLM do mundo, com apenas 256 milhões de parâmetros, e sua principal função é...

Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元-首席AI分享圈

Mistral OCR: 94,89% Precisão geral, 1000 páginas/30 segundos, apenas US$ 1

Na longa história da civilização humana, cada salto na forma como as informações são adquiridas e analisadas impulsionou profundamente o progresso social. Desde os antigos hieróglifos, passando pelo papiro portátil, até o surgimento posterior da prensa tipográfica e a atual onda digital, cada inovação tecnológica expandiu enormemente a transmissão do conhecimento humano...

Ollama OCR:使用Ollama中视觉模型提取图像中的文本-首席AI分享圈

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a vários ...

VisionParser:高精度处理收据和发票的OCR工具,提供API-首席AI分享圈

VisionParser: ferramenta de OCR para processamento de alta precisão de recibos e faturas, API disponível

Descrição geral O VisionParser é uma ferramenta de OCR (reconhecimento óptico de caracteres) projetada para processar recibos e faturas. Por meio da avançada tecnologia de IA generativa, o VisionParser é capaz de converter com rapidez e precisão todos os tipos de recibos e faturas em dados estruturados para uma ampla gama de setores, como varejo, catering, serviços B2B...

Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-首席AI分享圈

Chunkr: um serviço completo que usa modelos visuais para a ingestão de documentos e a divisão inteligente em blocos com base na hierarquia de parágrafos do texto

Introdução abrangente O Chunkr é uma API auto-hospedada dedicada à conversão de arquivos PDF, PPTX, DOCX e Excel em dados adequados para uso em RAG (Retrieval Augmented Generation) e LLM (Large Language Modelling). Ela foi desenvolvida pela Lumina AI Inc. e usa modelos visuais avançados para a ingestão de documentos...

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库-首席AI分享圈

Llama OCR: biblioteca de OCR que converte imagens em Markdown em três linhas de código usando a interface Llama 3.2 Vision gratuita

Introdução geral O Llama OCR é uma biblioteca de OCR (reconhecimento óptico de caracteres) baseada no Llama 3.2 Vision que converte documentos para o formato Markdown. Desenvolvida pela Nutlope, a biblioteca usa a interface gratuita do Llama 3.2 fornecida pela Together AI para analisar imagens e retornar documentos em formato Markdown...

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR-首席AI分享圈

Docling: suporte a uma variedade de formatos, análise de documentos e exportação para Markdown e JSON, suporte a PDF, OCR

Introdução abrangente O Docling é uma ferramenta avançada de análise e exportação de documentos que suporta uma ampla gama de formatos de documentos, incluindo PDF, DOCX, PPTX, XLSX, Imagem, HTML, AsciiDoc e Markdown. Ele pode analisar e exportar esses documentos para os formatos HTML, Markdown e JSON, com suporte para incorporação e...

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型-首席AI分享圈

ViTLP: extração de dados estruturados de documentos PDF tipograficamente complexos e geração visualmente orientada de modelos pré-treinados para layout de texto

Introdução abrangente O ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) é um projeto de código aberto que visa aprimorar o processamento de inteligência de documentos por meio de modelos de pré-treinamento de layout de texto generativo guiados visualmente. O projeto foi desenvolvido pela Veason-silverbul...

ScreenPipe:24小时收集录屏和操作信息并转换为本地知识库,通过AI助手对话、总结、回顾知识-首席AI分享圈

ScreenPipe: coleta de 24 horas de informações de operação e tela gravadas e convertidas em uma base de conhecimento local, por meio do diálogo, resumo e revisão do conhecimento do assistente de IA

Introdução geral O ScreenPipe é um assistente de IA desenvolvido pela mediar-ai que se concentra na gravação do conteúdo da tela, capturando capturas de tela e áudio 24 horas por dia, 7 dias por semana. Ele combina a tecnologia do rewind.ai e do cursor.com para armazenar dados gravados em um banco de dados local e é compatível com o idioma chinês ...

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具-首席AI分享圈

API de extração de texto (text-extract-api): extração visual de informações de texto, ferramenta de extração de PDF anônimo

Descrição geral A API de extração de texto (text-extract-api) é uma ferramenta avançada projetada para extrair e analisar o conteúdo de uma variedade de formatos de documentos (por exemplo, PDF, Word, PPTX etc.). A API utiliza a tecnologia de reconhecimento óptico de caracteres (OCR) de última geração e modelos compatíveis com Ollama para poder pegar qualquer documento ou imagem...

图片转Excel免费工具:高效识别图片中复杂格式的表格并转换为Excel文件-首席AI分享圈

Ferramenta gratuita Picture to Excel: Identifique com eficiência tabelas com formatação complexa em imagens e converta-as em arquivos do Excel

Descrição geral O Picture to Excel Free Tool é uma ferramenta on-line eficiente que pode identificar e converter, de forma rápida e precisa, dados tabulares de imagens em arquivos do Excel. A ferramenta é compatível com uma ampla variedade de formatos de imagem, como JPG e PNG, e pode ser usada em páginas da Web, aplicativos iOS e aplicativos Android. Por meio da avançada tecnologia de IA...

Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)-首席AI分享圈

Datalab: modelo de IA de reconhecimento de OCR dedicado, PDF para Markdown (código aberto/API)

Introdução abrangente O Datalab oferece uma variedade de modelos avançados de IA com foco em OCR, análise de layout, PDF para Markdown e muito mais. Esses modelos não são apenas de alto desempenho, mas também fáceis de usar e de código aberto. Os modelos Marker da plataforma podem converter PDF em Markdown de forma rápida e precisa, incluindo tabelas...

eSearch:多功能跨平台OCR工具,集成搜索|翻译|搜图|录屏等功能-首席AI分享圈

eSearch: ferramenta multifuncional de OCR para várias plataformas, pesquisa integrada, tradução, mapa de pesquisa, gravação de tela e outras funções

Introdução geral O eSearch é uma ferramenta de captura de tela de plataforma cruzada de código aberto, desenvolvida por xushengfeng, compatível com os sistemas Windows, macOS e Linux. O eSearch integra uma variedade de recursos, incluindo reconhecimento de OCR, pesquisa, tradução, postagem, pesquisa de imagens e gravação de tela. Ele integra uma variedade de recursos, incluindo captura de tela, reconhecimento de OCR, pesquisa, tradução, mapeamento, pesquisa de imagens e gravação de tela. O eSearch usa o Electron box...

pt_BRPortuguês do Brasil