Extraktion und Reinigung von Dokumenten

Insgesamt 67 Artikel
OneFileLLM:整合多种数据源为单一文本文件

OneFileLLM: Integration mehrerer Datenquellen in eine einzige Textdatei

Umfassende Einführung OneFileLLM ist ein Open-Source-Befehlszeilen-Tool, das entwickelt wurde, um mehrere Datenquellen in einer einzigen Textdatei für die einfache Eingabe in Large Language Models (LLMs) zu konsolidieren. Es unterstützt die Verarbeitung von GitHub-Repositories, ArXiv-Papers, YouTube-Videotranskriptionen,...
vor 4 Monaten
01.4K
Chatlog:提取和查询微信聊天记录的开源工具

Chatlog: Open-Source-Tool zum Extrahieren und Abfragen von WeChat-Chat-Protokollen

Allgemeine Einführung Chatlog ist ein Open-Source-Tool, das sich auf die Extraktion und Abfrage von Chat-Protokollen aus der lokalen Datenbank von WeChat konzentriert. Es unterstützt die WeChat-Versionen 3.x und 4.0 und deckt sowohl Windows- als auch macOS-Systeme ab. Benutzer können die Befehlszeile, Terminalschnittstelle oder H...
vor 4 Monaten
01.9K
VOP:提取复杂图表与数学公式的OCR工具

VOP: OCR-Tool zum Extrahieren komplexer Diagramme und mathematischer Formeln

Umfassende Einführung Das Versatile OCR Program ist ein Open-Source-Tool zur optischen Zeichenerkennung (OCR), das für die Arbeit mit komplexen akademischen und Bildungsdokumenten entwickelt wurde. Es kann Text, Tabellen, mathematische Formeln, Diagramme und Schemata aus PDFs, Bildern und anderen Dokumenten extrahieren und...
vor 4 Monaten
01.4K
DevDocs:快速抓取并整理技术文档的MCP服务

DevDocs: ein MCP-Dienst zum schnellen Durchsuchen und Organisieren technischer Dokumentation

Allgemeine Einführung DevDocs ist ein völlig kostenloses Open-Source-Tool, das vom CyberAGI-Team entwickelt und auf GitHub gehostet wird. Es wurde für Programmierer und Softwareentwickler entwickelt und beginnt mit der URL eines technischen Dokuments, durchsucht automatisch die relevanten Seiten und organisiert sie in einem übersichtlichen Ma...
vor 4 Monaten
01.4K
自动解析PDF内容并提取文字与表格的开源服务

Automatisches Parsen von PDF-Inhalten und Extrahieren von Text und Tabellen von Open-Source-Diensten

Umfassende Einführung Es analysiert automatisch das Layout von PDF-Dokumenten, identifiziert Text, Titel, Bilder, Tabellen, Formeln und andere Elemente auf der Seite und bestimmt ihre richtige Reihenfolge. Das Tool unterstützt OCR-Funktionalität und kann gescannte PDFs in durchsuchbaren Text umwandeln. Es läuft auf Docker und bietet zwei Modelle...
vor 4 Monaten
01.2K
pure.md:网址前插入“pure.md/”即可提取干净的文本

pure.md: Fügen Sie "pure.md/" vor der URL ein, um sauberen Text zu extrahieren.

Allgemeine Einführung pure.md ist ein Tool für KI-Agenten und Entwickler, das sich auf die schnelle Umwandlung von Webinhalten oder Dateien in das Markdown-Format konzentriert. Es umgeht Anti-Crawler-Beschränkungen durch Proxy-Dienste, extrahiert die Kerndaten einer Webseite und gibt eine saubere Markdown-Datei aus ...
vor 5 Monaten
01.3K
Cloudsquid:上传文档并描述要求智能提取结构化数据

Cloudsquid: Dokumente hochladen und Anforderungen für die intelligente Extraktion von strukturierten Daten beschreiben

Allgemeine Einführung Cloudsquid ist ein 2023 in Berlin, Deutschland, gegründetes Unternehmen, das sich auf die Vereinfachung der Dokumentenverarbeitung mit künstlicher Intelligenz konzentriert. Das Kernprodukt ist eine Online-Plattform zur Datenextraktion, die es Nutzern ermöglicht, Dokumente wie PDFs, Bilder, Audio, Video usw. hochzuladen und einfach anzugeben, dass sie diese extrahieren müssen...
vor 5 Monaten
01.2K
Supametas.AI:提取非结构化数据为LLM高可用数据

Supametas.AI: Extraktion unstrukturierter Daten in hochverfügbare LLM-Daten

Umfassende Einführung Supametas.AI ist eine Datenverarbeitungsplattform, die sich darauf spezialisiert hat, das Durcheinander von Webseiten, Dokumenten, Audio und Video in strukturierte Daten umzuwandeln, die KI nutzen kann. Sie unterstützt das Sammeln von Daten aus verschiedenen Quellen, einschließlich Weblinks, APIs, lokalen Dateien usw., und gibt sie dann als JSON aus ...
vor 5 Monaten
01.1K
飞桨 PP-TableMagic:复杂表格结构化信息提取神器

Flying Paddle PP-TableMagic: Strukturierte Informationsextraktion für komplexe Tabellen

Das Ziel der Tabellenerkennung besteht darin, Tabellen in Bildern zu analysieren, Tabellenstrukturen und Zellenpositionen genau zu identifizieren und sie in strukturierte Tabellenformate (z. B. HTML) zu reduzieren. Im heutigen Informationszeitalter liegt eine große Menge wichtiger Tabellendaten immer noch in unstrukturiertem Zustand vor (z. B. gescannte Dokumente mit Bildern von statistischen Tabellen).
vor 5 Monaten
02.3K
Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元

Mistral OCR: 94,89% Gesamtgenauigkeit, 1000 Seiten/30 Sekunden, nur $1

In der langen Geschichte der menschlichen Zivilisation hat jeder Sprung in der Art und Weise, wie Informationen erworben und analysiert werden, tiefgreifend zum sozialen Fortschritt beigetragen. Von den antiken Hieroglyphen über den tragbaren Papyrus bis hin zur späteren Entwicklung des Buchdrucks und der heutigen digitalen Welle hat jede technologische Innovation das Paradigma der menschlichen Wissensverbreitung erheblich erweitert...
vor 5 Monaten
01.4K
PDF-Extract-Kit:提取复杂结构PDF内容的开源工具

PDF-Extract-Kit: Extrahieren der komplexen Struktur des PDF-Inhalts mit dem Open-Source-Tool

Umfassende Einführung PDF-Extract-Kit ist ein Open-Source-Projekt, das vom OpenDataLab-Team entwickelt wurde und sich auf die effiziente Extraktion von hochwertigen Inhalten aus komplexen und vielfältigen PDF-Dokumenten konzentriert. Es integriert fortschrittliche Dokumenten-Parsing-Technologie zur Unterstützung von Layout-Erkennung, Formel-Erkennung ...
vor 6 Monaten
01.9K
Crawl4LLM:为LLM预训练提供的高效网页爬取工具

Crawl4LLM: Ein effizientes Web Crawling Tool für LLM Pre-Training

Umfassende Einführung Crawl4LLM ist ein Open-Source-Projekt, das gemeinsam von der Tsinghua University und der Carnegie Mellon University entwickelt wurde und sich auf die Optimierung der Effizienz des Web-Crawlings für das Pre-Training von großen Modellen (LLM) konzentriert. Es reduziert ineffektives Crawling durch intelligente Auswahl qualitativ hochwertiger Webdaten erheblich und behauptet, ursprünglich 1...
vor 6 Monaten
01.2K
CodeWeaver:将代码结构和内容自动生成Markdown文档

CodeWeaver: Automatische Generierung von Markdown-Dokumenten aus Code-Struktur und Inhalt.

Allgemeine Einführung CodeWeaver ist ein Kommandozeilen-Tool, mit dem Code-Bibliotheken in einzelne, einfach zu navigierende Markdown-Dokumente eingebettet werden können. Es erzeugt eine strukturierte Darstellung der Dateihierarchie eines Projekts, indem es Verzeichnisse rekursiv durchsucht und den Inhalt jeder Datei in Codeblöcke einbettet. Dieses Werkzeug...
vor 6 Monaten
01.2K
Instructor:简化大语言模型结构化输出工作流的Python库

Instructor: eine Python-Bibliothek zur Vereinfachung strukturierter Arbeitsabläufe für große Sprachmodelle

Allgemeine Einführung Instructor ist eine beliebte Python-Bibliothek, die für die Verarbeitung strukturierter Ausgaben von Large Language Models (LLMs) entwickelt wurde. Sie basiert auf Pydantic und bietet eine einfache, transparente und benutzerfreundliche API für die Verwaltung von Daten...
vor 6 Monaten
01.5K
zChunk:基于Llama-70B的通用语义分块策略

zChunk: eine generische semantische Chunking-Strategie basierend auf Llama-70B

Umfassende Einführung zChunk ist eine neuartige Chunking-Strategie, die von ZeroEntropy entwickelt wurde und eine Lösung für generisches semantisches Chunking bieten soll. Die Strategie basiert auf dem Llama-70B-Modell, das den Chunking-Prozess von Dokumenten optimiert, indem es die Generierung von Chunks anregt und so sicherstellt, dass die Informationsabfrage auf hohem Niveau...
vor 6 Monaten
01.4K
Pulse:文档处理与数据提取的商业解决方案

Pulse: Geschäftslösungen für Dokumentenverarbeitung und Datenextraktion

Umfassende Einführung Pulse ist eine intelligente Plattform, die sich auf die Verarbeitung von Dokumenten und die Datenextraktion konzentriert. Sie wurde entwickelt, um Unternehmen und Entwickler bei der effizienten Analyse und Verarbeitung eines breiten Spektrums komplexer Dokumente zu unterstützen. Durch seine fortschrittliche Computer Vision und multimodale Verarbeitungstechnologie ist Pulse in der Lage, Daten aus Texten, Bildern, Tabellen und vielen anderen...
vor 6 Monaten
01.2K
Rowfill:批量提取文档结构化信息并自动化分析

Rowfill: Stapelweise Extraktion von strukturierten Informationen aus Dokumenten und automatisierte Analyse

Allgemeine Einführung Rowfill ist eine Open-Source-Plattform zur Dokumentenverarbeitung, die für Wissensarbeiter entwickelt wurde. Sie nutzt fortschrittliche Techniken der künstlichen Intelligenz, um Daten aus komplexen Dokumenten, Bildern und PDFs zu extrahieren, zu analysieren und zu verarbeiten. Rowfill unterstützt Native Large Language Model (LLM) und Ope...
vor 6 Monaten
01.4K
Yek:读取git仓库文本文件并快速分块,以供大模型使用

Yek: Lesen von Textdateien aus dem Git-Repository und schnelles Chunking für große Modelle

Allgemeine Einführung Yek ist ein schnelles Rust-basiertes Werkzeug zum Lesen von Textdateien aus Repositories oder Verzeichnissen, zum Chunking und zur Serialisierung für die Verwendung in Large Language Models (LLMs). Das Tool verwendet standardmäßig die .gitignore-Regel, um nicht benötigte Dateien zu überspringen, und verwendet...
vor 7 Monaten
02K
UnDatas.IO:精准解析各类非结构化数据的API服务(付费)

UnDatas.IO: API-Dienst für die genaue Analyse verschiedener Arten von unstrukturierten Daten (kostenpflichtig)

Umfassende Einführung UnDatas.IO ist eine Plattform, die sich auf das Parsing und die Verarbeitung unstrukturierter Daten konzentriert. Sie nutzt fortschrittliche Technologien zur automatischen Erkennung von Dokumentenlayouts und zur Klassifizierung von Tabellen, Bildern, Formeln und Text, wodurch der Datenverarbeitungsprozess erheblich vereinfacht wird. Die Plattform spart nicht nur viel Zeit beim Sortieren der Daten...
vor 7 Monaten
01.4K
Zerox:PDF、DOCX、图像转换为Markdown,视觉模型高精度OCR

Zerox: PDF, DOCX, Bildkonvertierung in Markdown, visuelles Modell, hochpräzise OCR

Allgemeine Einführung Zerox ist ein Open-Source-Projekt, das entwickelt wurde, um PDF, DOCX, Bilder und andere Dokumente durch visuelle Modelle in das Markdown-Format zu konvertieren. Das Projekt wird vom getomni-ai Team entwickelt und bietet eine einfache und effiziente OCR (Optical Character Recognition) Lösung....
vor 7 Monaten
01.6K
SemHash:快速实现语义文本去重,提升数据清理效率

SemHash: Schnelle Implementierung der semantischen Text-Deduplizierung zur Verbesserung der Effizienz der Datenbereinigung

Umfassende Einführung SemHash ist ein leichtgewichtiges und flexibles Werkzeug zum Entduplizieren von Datensätzen durch semantische Ähnlichkeit. Es kombiniert die schnelle Einbettungsgenerierung von Model2Vec mit der effizienten ANN (approximate nearest neighbour) Ähnlichkeitssuche von Vicinity.SemHa...
vor 7 Monaten
01.6K
Parseur:自动化提取文档数据,各类文档中提取结构化文本

Parseur: automatisierte Extraktion von Dokumentdaten, strukturierte Textextraktion aus verschiedenen Dokumenten

Allgemeine Beschreibung Parseur ist eine führende KI-Datenextraktionssoftware, die Benutzern hilft, automatisch Textdaten aus PDFs, E-Mails und anderen Dokumenten zu extrahieren. Mit Parseur können Benutzer unstrukturierte Daten leicht in strukturierte Daten umwandeln und sie an verschiedene Anwendungen senden...
vor 7 Monaten
01.8K
AI Functions:将输入内容转换为结构化输出的(API)服务

AI-Funktionen: ein (API-)Dienst zur Umwandlung von Eingabeinhalten in strukturierte Ausgaben

Umfassende Einführung Weco AI Functions ist eine leistungsstarke Plattform, die Benutzern hilft, schnell AI-Funktionen zu erstellen und einzusetzen. Durch die einfache Beschreibung von Aufgaben können Benutzer strukturierte Ausgabemuster mit A/B-Tests und Beobachtungen erzeugen. Die Plattform unterstützt No-Code-Prototyping...
vor 6 Monaten
01.6K
NV Ingest:解析复杂格式文档,提取多模态数据为元数据和文本

NV Ingest: Parsing komplexer Formatdokumente, Extraktion multimodaler Daten in Metadaten und Text

Umfassende Einführung NV Ingest (NVIDIA Ingest) ist eine Reihe von Microservices für den frühen Zugriff, die für das Parsen von Hunderttausenden von komplexen, unübersichtlichen unstrukturierten PDFs und anderen Unternehmensdokumenten entwickelt wurden. Sie kann diese Dokumente in Metadaten und Text umwandeln, um sie in Retrievalsysteme einzubetten...
vor 7 Monaten
02.1K
Trellis:转换非结构文档为结构化EXCEL格式数据,PDF快速转表格(付费)

Trellis: unstrukturierte Dokumente in strukturierte Daten im EXCEL-Format umwandeln, PDF schnell in Form bringen (kostenpflichtig)

Allgemeine Einführung Trellis ist eine Datenplattform, die sich auf die Umwandlung komplexer unstrukturierter Datenquellen in strukturierte SQL-Formate konzentriert. Durch seine leistungsstarke KI-Engine ist Trellis in der Lage, eine breite Palette von Datenquellen wie Finanzdokumente, Sprachanrufe und E-Mails zu verarbeiten und in Daten zu konvertieren, die...
vor 7 Monaten
01.4K
Ollama OCR:使用Ollama中视觉模型提取图像中的文本

Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

Umfassende Einführung Ollama OCR ist ein leistungsstarkes Toolkit für die optische Zeichenerkennung (OCR), das das hochmoderne visuelle Sprachmodell der Ollama-Plattform nutzt, um Text aus Bildern zu extrahieren. Das Projekt ist sowohl als Python-Paket verfügbar als auch als benutzerfreundliche Strea...
vor 7 Monaten
02.9K
llms.txt Generator:快速抓取网站内容并,生成LLM训练文本数据集

llms.txt Generator: Schnelles Erfassen von Website-Inhalten und Generieren von LLM-Trainingstext-Datensätzen.

Umfassende Einführung llmstxt-generator ist ein professionelles Tool zur Extraktion und Integration von Webinhalten, das hochwertige Textdatensätze für das Training und die Inferenz in Large Language Modelling (LLM) vorbereitet. Das Tool wurde von Mendable AI unter Verwendung von @firec entwickelt...
vor 7 Monaten
01.9K
Doc2X:文档图片公式识别与转换工具,支持多格式转换与高精度翻译

Doc2X: Werkzeuge zur Erkennung und Konvertierung von Bildformeln in Dokumenten, Unterstützung für die Konvertierung mehrerer Formate und hochpräzise Übersetzung

Umfassende Einführung Doc2X ist ein leistungsfähiges Dokument Bild Formel Erkennung und Konvertierung Tools, ist verpflichtet, effiziente und intelligente Lösungen für die Dokumentenverarbeitung. Ob es sich um eine akademische Forschungsarbeit, ein Lehrbuch, ein Unternehmensdokument oder einen Finanzbericht handelt, Doc2X kann PDF-Tabellen und...
vor 6 Monaten
01.9K
ExtractThinker:提取和分类文档为结构化数据,优化文档处理流程

ExtractThinker: Extrahieren und Kategorisieren von Dokumenten in strukturierte Daten, um den Prozess der Dokumentenbearbeitung zu optimieren

Umfassende Einführung ExtractThinker ist ein flexibles Dokument-Intelligenz-Tool, das strukturierte Daten aus Dokumenten mit Hilfe von Large Language Models (LLMs) extrahiert und klassifiziert und einen nahtlosen ORM-ähnlichen Dokumentenverarbeitungs-Workflow bietet. Es unterstützt eine Vielzahl von Dokumentenladern, einschließlich Tess...
vor 7 Monaten
01.7K
HtmlRAG:构建高效HTML检索增强生成系统,优化RAG系统中的HTML文档检索与处理

HtmlRAG: Aufbau eines effizienten Systems zur verbesserten Generierung von HTML-Dokumenten, Optimierung des Abrufs und der Verarbeitung von HTML-Dokumenten in RAG-Systemen

Umfassende Einführung HtmlRAG ist ein innovatives Open-Source-Projekt, das sich auf die Verbesserung der Verarbeitung von HTML-Dokumenten in Retrieval Augmented Generation (RAG)-Systemen konzentriert. Das Projekt präsentiert einen neuartigen Ansatz, der argumentiert, dass die Verwendung von HTML-Formatierung in RAG-Systemen effizienter ist als reiner Text. Das Projekt enthält eine vollständige ...
vor 7 Monaten
01.9K
ScrapeGraphAI:一个提示词搞定网页抓取,无需编写规则智能网页内容提取工具

ScrapeGraphAI: Ein einziges Stichwort für Web-Crawling, keine Notwendigkeit, Regeln zu schreiben intelligente Web-Content-Extraktionstools

Umfassende Einführung ScrapeGraphAI ist eine innovative Python-Bibliothek für Web-Scraping, die auf clevere Weise Large Language Modelling (LLM) und Direct Graph Logic kombiniert, um Scraping-Pipelines für Websites und lokale Dokumente zu erstellen. Was dieses Tool einzigartig macht, ist sein perfektes Maß an Einfachheit und Leistung...
vor 7 Monaten
01.5K
Vision Parse: Intelligente Konvertierung von PDF-Dokumenten in das Markdown-Format mithilfe visueller Sprachmodelle

Vision Parse: Intelligente Konvertierung von PDF-Dokumenten in das Markdown-Format mithilfe visueller Sprachmodelle

Umfassende Einführung Vision Parse ist ein revolutionäres Werkzeug zur Dokumentenverarbeitung. Es kombiniert geschickt die fortschrittlichste Technologie für visuelle Sprachmodelle (Vision Language Models) mit der Fähigkeit, PDF-Dokumente auf intelligente Weise in das hochwertige Markdown-Format umzuwandeln...
vor 8 Monaten
02K
Outlines:通过正则表达式、JSON或Pydantic模型生成结构化文本输出

Umrisse: Generierung strukturierter Textausgaben über reguläre Ausdrücke, JSON oder Pydantic-Modelle

Allgemeine Einführung Outlines ist eine Open-Source-Bibliothek, die von dottxt-ai entwickelt wurde, um die Anwendung von Large Language Models (LLMs) durch strukturierte Textgenerierung zu verbessern. Die Bibliothek unterstützt eine Vielzahl von Modellintegrationen, einschließlich OpenAI, Transformatoren...
vor 6 Monaten
01.7K
MarkItDown:微软文档智能转换工具,转换各种文件为Markdown格式

MarkItDown: Microsoft Document Intelligent Conversion Tool, konvertiert verschiedene Dateien in das Markdown-Format

Allgemeine Einführung MarkItDown ist ein von Microsoft entwickeltes Python-Tool, mit dem verschiedene Dateien und Office-Dokumente in das Markdown-Format konvertiert werden können. Das Tool unterstützt eine breite Palette von Dateitypen, darunter PDF, PowerPoint, Word, Excel, Diagramme...
vor 8 Monaten
02.5K
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Allgemeine Einführung Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Das Projekt wurde von Lumina entwickelt...
vor 8 Monaten
02.7K
GitIngest:快速将Github代码仓库转为适合LLM理解的文本

GitIngest: Schnelle Konvertierung von Github-Code-Repositories in Text, der für LLM-Verständnis geeignet ist

Allgemeine Einführung GitIngest ist ein Open-Source-Tool zur Umwandlung von GitHub-Code-Repositories in Text, der für Large Language Model (LLM)-Hinweise geeignet ist. Mit einem einfachen Vorgang können Benutzer den Inhalt eines beliebigen GitHub-Repository extrahieren und formatieren, damit er in das LLM passt...
vor 8 Monaten
02.7K
MegaParse:解析各类型文档为LLM可用数据,完整保留文档中的表格、图片等所有信息

MegaParse: parst jede Art von Dokument in LLM-verfügbare Daten, wobei alle Informationen im Dokument, wie z. B. Tabellen und Bilder, in ihrer Gesamtheit erhalten bleiben.

Allgemeine Einführung MegaParse ist ein leistungsfähiges und vielseitiges Dokument-Parsing-Tool, das zur Optimierung der Datenverarbeitung für das Large Language Model (LLM) entwickelt wurde. Ob Sie nun mit Text, PDF, PowerPoint-Präsentationen oder Word-Dokumenten arbeiten, MegaParse...
vor 8 Monaten
02.1K
pdf2htmlEX:PDF无损转换为HTML,保持文本格式,适用于学术论文和杂志排版

pdf2htmlEX: Verlustfreie Konvertierung von PDF in HTML unter Beibehaltung der Textformatierung, geeignet für wissenschaftliche Arbeiten und Magazinsatz

Umfassende Einführung pdf2htmlEX ist ein Open-Source-Tool entwickelt, um PDF-Dateien in HTML-Format zu konvertieren, durch die Analyse des Inhalts der PDF-Datei und HTML + CSS verwenden, um genau seine visuelle Wirkung wiederherzustellen, wird das PDF-Dokument in einen Browser umgewandelt werden ...
vor 9 Monaten
01.7K
Maxun:开源无代码平台,自动抓取网页数据并转换为API或电子表格

Maxun: eine Open-Source-Plattform ohne Code, die automatisch Webdaten durchsucht und sie in APIs oder Tabellenkalkulationen umwandelt

Umfassende Einführung Maxun ist eine Open-Source-Plattform für die Extraktion von Webdaten ohne Code, mit der Benutzer in wenigen Minuten Roboter trainieren können, um Webdaten automatisch zu crawlen und in APIs oder Tabellenkalkulationen zu konvertieren. Die Plattform unterstützt Paging und Scrolling, passt sich an Änderungen im Website-Layout an, bietet leistungsstarke Daten-Crawling...
vor 7 Monaten
01.9K
OmniParse:从文档/多媒体中提取任何非结构化数据解析为结构化数据

OmniParse: Extrahiert beliebige unstrukturierte Daten aus Dokumenten/Multimedia und parst sie in strukturierte Daten

Allgemeine Einführung OmniParse ist eine leistungsstarke Datenparsing- und Optimierungsplattform zur Umwandlung unstrukturierter Daten in strukturierte, verwertbare Daten, die für das GenAI-Framework (Generative Artificial Intelligence) optimiert wurden. Ob Sie nun mit Dokumenten, Tabellen, Bildern, Videos, Audiodateien oder...
vor 9 Monaten
01.9K
Parsio:自动从 PDF、电子邮件和其他文档中提取关键结构化数据

Parsio: Automatisch strukturierte Schlüsseldaten aus PDFs, E-Mails und anderen Dokumenten extrahieren

Allgemeine Beschreibung Parsio ist ein KI-basiertes Tool zur Extraktion von Dokumenten und E-Mails, das automatisch strukturierte Daten aus PDFs, E-Mails und anderen Dokumenten extrahiert. Die Plattform bietet einen leistungsstarken PDF-Parser und OCR-Funktionen und unterstützt eine Vielzahl von Dokumenttypen, einschließlich...
vor 9 Monaten
01.9K
文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具

Textextraktions-API (text-extract-api): visuelle Extraktion von Textinformationen, anonymisiertes PDF-Extraktionswerkzeug

Umfassende Einführung Die Textextraktions-API (text-extract-api) ist ein leistungsfähiges Tool zum Extrahieren und Parsen von Inhalten aus einer Vielzahl von Dokumentformaten (z. B. PDF, Word, PPTX usw.). Die API nutzt die modernste OCR-Technologie (Optical Character Recognition) und...
vor 7 Monaten
02K
MinerU:PDF文档提取转换为多模态Markdown格式,支持电子书OCR扫描

MinerU: Extraktion und Konvertierung von PDF-Dokumenten in das multimodale Markdown-Format, Unterstützung von OCR-Scans für E-Books

Umfassende Einführung MinerU ist ein Open-Source-Tool zur Datenextraktion, das vom OpenDataLab-Team am Shanghai Artificial Intelligence Laboratory entwickelt wurde und sich auf die effiziente Extraktion von Inhalten aus komplexen PDF-Dokumenten, Webseiten und eBooks konzentriert. Es ist in der Lage, multimodale PDFs zu verarbeiten, die Bilder, Formeln, Tabellen und andere Elemente enthalten...
vor 10 Monaten
02.6K
Mathpix:PDF和图片文档结构化转换软件,支持多终端

Mathpix: Software zur strukturierten Konvertierung von PDF- und Bilddokumenten, Unterstützung für mehrere Terminals

Allgemeine Beschreibung Mathpix ist ein leistungsstarkes, KI-gesteuertes Werkzeug zur Automatisierung von Dokumenten, das für Forscher, Entwickler und Unternehmen entwickelt wurde. Es wandelt PDFs und Bilder schnell und präzise in durchsuchbaren, exportierbaren und maschinenlesbaren Text um...
vor 11 Monaten
02.5K
Unstructured:开源预处理非结构化文档,无结构数据处理的利器

Unstrukturiert: Open-Source-Vorverarbeitung unstrukturierter Dokumente, Tools zur Verarbeitung unstrukturierter Daten

Umfassende Einführung Unstructured-IO bietet eine Reihe von Open-Source-Komponenten für die Verarbeitung und Vorverarbeitung von Bildern und Textdokumenten wie PDF, HTML, Word-Dokumente, etc. Ihr Hauptziel ist die Vereinfachung und Optimierung von Datenverarbeitungsabläufen, insbesondere für große Sprachmodelle (LL...
vor 11 Monaten
02K