Aprendizagem pessoal com IA
e orientação prática
豆包Marscode1
Total de 60 artigos

Tags: extração e limpeza de documentos Página 2

Rowfill:批量提取文档结构化信息并自动化分析-首席AI分享圈

Rowfill: extração em lote de informações estruturadas de documentos e análise automatizada

Introdução abrangente O Rowfill é uma plataforma de processamento de documentos de código aberto projetada para profissionais do conhecimento. Ele usa tecnologias avançadas de IA para extrair, analisar e processar dados de documentos, imagens e PDFs complexos. O Rowfill oferece suporte a modelos nativos de linguagem grande (LLMs) e modelos visuais OpenAI para garantir que os dados sejam ocultos...

PPTX2MD:将PPTX文件转换为Markdown的专用工具-首席AI分享圈

PPTX2MD: ferramenta especial para converter arquivos PPTX em Markdown

Introdução geral O PPTX2MD é uma ferramenta de código aberto criada para converter arquivos PPTX do PowerPoint para o formato Markdown. Desenvolvida pelo usuário do GitHub ssine, a ferramenta suporta a retenção de cabeçalhos, listas, formatação de texto (como negrito, itálico, cores e hiperlinks), imagens e tabelas em vários formatos.PPTX2MD...

Repomix:打包代码库为一个文本文件以便大模型检索-首席AI分享圈

Repomix: empacotamento da base de código em um arquivo de texto para recuperação de modelos grandes

Introdução geral O Repomix (anteriormente conhecido como Repopack) é uma ferramenta de código aberto projetada para empacotar toda uma base de código em um único arquivo compatível com IA. Essa ferramenta permite que os desenvolvedores disponibilizem facilmente sua base de código para grandes modelos de linguagem (como Claude, ChatGPT e Gemini) para análise e processamento...

Yek:读取git仓库文本文件并快速分块,以供大模型使用-首席AI分享圈

Yek: leitura de arquivos de texto do repositório git e sua rápida divisão em pedaços para modelos grandes

Introdução geral O Yek é uma ferramenta rápida baseada em Rust para ler arquivos de texto de repositórios ou diretórios, dividi-los em pedaços e serializá-los para uso em modelos de linguagem grande (LLMs). A ferramenta usa a regra .gitignore por padrão para ignorar arquivos desnecessários e usa o histórico do Git para inferir arquivos importantes...

LlamaParse:Llamaindex推出的高品质解析文档,提取数据服务(每日免费提取1000页)-首席AI分享圈

LlamaParse: serviço de análise de documentos e extração de dados de alta qualidade da Llamaindex (1.000 páginas gratuitas por dia).

Introdução geral O LlamaParse é uma ferramenta avançada de análise de documentos que pode processar documentos complexos, como PDF, PowerPoint, Word e planilhas, e convertê-los em dados estruturados. O LlamaParse oferece várias maneiras de usá-lo, incluindo uma API REST autônoma, pacotes Python, TypeScr...

UnDatas.IO: serviço de API para análise precisa de vários tipos de dados não estruturados (pago)

Introdução abrangente O UnDatas.IO é uma plataforma voltada para a análise e o processamento de dados não estruturados. Ela utiliza tecnologia avançada para identificar automaticamente layouts de documentos e classificar tabelas, imagens, fórmulas e textos, simplificando bastante o processo de processamento de dados. A plataforma não só economiza muito tempo na classificação de dados, mas também ajuda...

Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR-首席AI分享圈

Zerox: PDF, DOCX, conversão de imagem para Markdown, OCR de alta precisão de modelo visual

Introdução abrangente O Zerox é um projeto de código aberto desenvolvido para converter PDF, DOCX, imagens e outros documentos em formato Markdown por meio de modelos visuais. O projeto foi desenvolvido pela equipe getomni-ai e oferece uma solução simples e eficiente de OCR (reconhecimento óptico de caracteres). O Zerox é compatível com as linguagens de programação Node e Python, ...

SemHash: implementação rápida de desduplicação de texto semântico para melhorar a eficiência da limpeza de dados

Introdução geral O SemHash é uma ferramenta leve e flexível para desduplicação de conjuntos de dados por similaridade semântica. Ele combina a rápida geração de incorporação do Model2Vec com a eficiente pesquisa de similaridade ANN (Approximate Nearest Neighbour) do Vicinity.O SemHash é compatível com a desduplicação de um único conjunto de dados (por exemplo, limpeza de...

Parseur:自动化提取文档数据,各类文档中提取结构化文本-首席AI分享圈

Parseur: extração automatizada de dados de documentos, extração de texto estruturado de vários documentos

Introdução geral O Parseur é um software líder de extração de dados de IA projetado para ajudar os usuários a extrair automaticamente dados de texto de PDFs, e-mails e outros documentos. Com o Parseur, os usuários podem converter facilmente dados não estruturados em dados estruturados e enviá-los a vários aplicativos. O software é amplamente ...

AI Functions:将输入内容转换为结构化输出的(API)服务-首席AI分享圈

Funções de IA: um serviço (API) para converter conteúdo de entrada em saídas estruturadas

Introdução abrangente O Weco AI Functions é uma plataforma avançada projetada para ajudar os usuários a criar e implementar rapidamente funções de IA. Com a simples descrição de tarefas, os usuários podem gerar padrões de saída estruturados com testes A/B e monitoramento observacional. A plataforma suporta prototipagem sem código, permitindo que até mesmo usuários não técnicos...

NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本-首席AI分享圈

NV Ingest: análise de documentos de formato complexo e extração de dados multimodais em metadados e texto

Introdução abrangente O NV Ingest (NVIDIA Ingest) é um conjunto de microsserviços de acesso antecipado projetado para analisar centenas de milhares de PDFs não estruturados complexos e confusos e outros documentos corporativos. Ele pode converter esses documentos em metadados e texto para incorporação em sistemas de recuperação.

Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)-首席AI分享圈

Trellis: converte documentos não estruturados em dados estruturados no formato EXCEL, PDF de forma rápida (pago)

Introdução geral O Trellis é uma plataforma de dados focada na conversão de fontes de dados não estruturadas complexas em um formato SQL estruturado. Por meio de seu poderoso mecanismo de IA, o Trellis é capaz de processar uma ampla gama de fontes de dados, como documentos financeiros, chamadas de voz e e-mails, e convertê-los em SQL que pode ser usado por equipes de dados e operações...

Ollama OCR:使用Ollama中视觉模型提取图像中的文本-首席AI分享圈

Ollama OCR: extração de texto de imagens usando modelos visuais no Ollama

Introdução abrangente O Ollama OCR é um poderoso kit de ferramentas de reconhecimento óptico de caracteres (OCR) que usa o modelo de linguagem visual de última geração fornecido pela plataforma Ollama para extrair texto de imagens. O projeto está disponível como um pacote Python e fornece uma interface de aplicativo da Web Streamlit fácil de usar. Ele oferece suporte a vários ...

llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集-首席AI分享圈

Gerador de llms.txt: capture rapidamente o conteúdo do site e gere conjuntos de dados de texto de treinamento LLM.

Introdução abrangente O llmstxt-generator é uma ferramenta profissional de extração e integração de conteúdo da Web dedicada à preparação de conjuntos de dados textuais de alta qualidade para treinamento e inferência em modelos de linguagem grande (LLMs). Desenvolvida pela Mendable AI, a ferramenta usa a tecnologia de rastreamento da Web fornecida por @firecrawl_dev e GPT-4-mini ...

Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译-首席AI分享圈

Doc2X: ferramentas de reconhecimento e conversão de fórmulas de imagens de documentos, suporte para conversão em vários formatos e tradução de alta precisão

Introdução abrangente O Doc2X é uma poderosa ferramenta de conversão e reconhecimento de fórmulas de imagens de documentos, comprometida em fornecer soluções eficientes e inteligentes de processamento de documentos. Quer se trate de um trabalho de pesquisa acadêmica, livro didático, documento corporativo ou relatório financeiro, o Doc2X pode identificar com precisão as tabelas e fórmulas em PDF e convertê-las com uma única tecla...

ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程-首席AI分享圈

ExtractThinker: extração e categorização de documentos em dados estruturados para otimizar o processo de manuseio de documentos

Introdução abrangente O ExtractThinker é uma ferramenta flexível de inteligência de documentos que extrai e classifica dados estruturados de documentos usando Modelos de Linguagem Grandes (LLMs), fornecendo um fluxo de trabalho de processamento de documentos semelhante ao ORM. Ele é compatível com vários carregadores de documentos, incluindo o Tesseract OCR, o Azure Form Recog...

HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理-首席AI分享圈

HtmlRAG: Building an Efficient HTML Retrieval Enhanced Generation System, Otimizando a recuperação e o processamento de documentos HTML em sistemas RAG

Introdução abrangente O HtmlRAG é um projeto inovador de código aberto voltado para o aprimoramento do processamento de documentos HTML em sistemas RAG (Retrieval Augmented Generation). O projeto propõe uma nova abordagem de que o uso da formatação HTML em sistemas RAG é mais eficiente do que o texto simples. O projeto abrange um fluxo completo de processamento de dados, desde a cadeia...

ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具-首席AI分享圈

ScrapeGraphAI: Uma palavra pronta para rastreamento da Web, sem necessidade de escrever regras Ferramenta inteligente de extração de conteúdo da Web

Introdução abrangente O ScrapeGraphAI é uma biblioteca inovadora de raspagem da Web em Python que combina de forma inteligente a Modelagem de Linguagem Grande (LLM) e a Lógica de Gráfico Direto para criar pipelines de raspagem para sites e documentos locais. A singularidade dessa ferramenta está em seu equilíbrio perfeito entre simplicidade e potência: o usuário simplesmente descreve o que deseja mencionar...

Vision Parse:使用视觉语言模型将PDF文档智能转换为Markdown格式-首席AI分享圈

Vision Parse: conversão inteligente de documentos PDF para o formato Markdown usando modelos de linguagem visual

Introdução abrangente O Vision Parse é uma ferramenta revolucionária de processamento de documentos que combina de forma inteligente a tecnologia de última geração dos modelos de linguagem visual (Vision Language Models) para converter de forma inteligente documentos PDF em conteúdo de alta qualidade no formato Markdown. A ferramenta oferece suporte a uma ampla variedade de modelos de linguagem visual de primeira linha, incluindo o...

pt_BRPortuguês do Brasil