AI Personal Learning
und praktische Anleitung
CyberKnife-Zeichenspiegel
Insgesamt 27 Artikel

Tags: OCR

VOP:提取复杂图表与数学公式的OCR工具-首席AI分享圈

VOP: OCR-Tool zum Extrahieren komplexer Diagramme und mathematischer Formeln

Umfassende Einführung Das vielseitige OCR-Programm ist ein Open-Source-Tool für die optische Zeichenerkennung (OCR), das für die Verarbeitung komplexer akademischer und pädagogischer Dokumente entwickelt wurde. Es kann Text, Tabellen, mathematische Formeln, Diagramme und Schemata aus PDFs, Bildern und anderen Dokumenten extrahieren und eine Struktur erzeugen, die für das Training von maschinellem Lernen geeignet ist...

自动解析PDF内容并提取文字与表格的开源服务-首席AI分享圈

Automatisches Parsen von PDF-Inhalten und Extrahieren von Text und Tabellen von Open-Source-Diensten

Umfassende Einführung Es analysiert automatisch das Layout von PDF-Dokumenten, identifiziert Text, Titel, Bilder, Tabellen, Formeln und andere Elemente auf der Seite und bestimmt ihre richtige Reihenfolge. Das Tool unterstützt OCR-Funktionalität, Sie können gescannte PDF in durchsuchbaren Text umwandeln. Es läuft auf Docker , bietet zwei Modelle: visuelles Modell (Vis...

uniOCR:跨平台开源的文字识别工具-首席AI分享圈

uniOCR: plattformübergreifendes Open-Source-Tool zur Texterkennung

Allgemeine Einführung uniOCR ist ein Open-Source-Tool zur Texterkennung, das vom mediar-ai-Team entwickelt wurde. Es basiert auf der Sprache Rust und unterstützt macOS-, Windows- und Linux-Systeme. Es unterstützt macOS, Windows und Linux-Systeme. Benutzer können es verwenden, um Text aus Bildern zu extrahieren, die Bedienung ist einfach und kostenlos. uniOCRs Hauptmerkmal ist die plattformübergreifende Unterstützung...

PDF Craft:PDF扫描文件转Markdown的开源工具-首席AI分享圈

PDF Craft: Gescannte PDF-Dokumente in Markdown umwandeln Open-Source-Tools

Allgemeine Einführung PDF Craft ist ein Open-Source-Tool, mit dem PDFs von Büchern gescannt und in das Markdown-Format konvertiert werden können. Es wird von oomol-lab entwickelt und auf GitHub gehostet für Benutzer, die ihre E-Books organisieren möchten. Das Tool läuft über ein lokales KI-Modell, ohne dass eine Internetverbindung erforderlich ist, was sowohl die Privatsphäre als auch den Platz...

SmolDocling:小体积高效处理文档的视觉语言模型-首席AI分享圈

SmolDocling: ein visuelles Sprachmodell für die effiziente Verarbeitung von Dokumenten in einem kleinen Volumen

SmolDocling ist ein Visual Language Model (VLM), das vom ds4sd-Team in Zusammenarbeit mit IBM entwickelt wurde und auf SmolVLM-256M basiert und auf der Hugging Face-Plattform gehostet wird. SmolDocling ist ein Visual Language Model (VLM), das auf SmolVLM-256M basiert und auf der Hugging Face Plattform gehostet wird. Es ist das weltweit kleinste VLM mit nur 256M Parametern und seine Kernfunktion ist es,...

Mistral OCR:94.89%总体精度,1000 页/30秒,只需1美元-首席AI分享圈

Mistral OCR: 94,89% Gesamtgenauigkeit, 1000 Seiten/30 Sekunden, nur $1

In der langen Geschichte der menschlichen Zivilisation hat jeder Sprung in der Art und Weise, wie Informationen erworben und ausgewertet werden, den sozialen Fortschritt entscheidend vorangetrieben. Von den antiken Hieroglyphen über den tragbaren Papyrus bis hin zur späteren Entwicklung des Buchdrucks und der heutigen digitalen Welle hat jede technologische Innovation die Weitergabe von menschlichem Wissen erheblich erweitert...

Ollama OCR:使用Ollama中视觉模型提取图像中的文本-首席AI分享圈

Ollama OCR: Extrahieren von Text aus Bildern mithilfe visueller Modelle in Ollama

Umfassende Einführung Ollama OCR ist ein leistungsstarkes Toolkit für die optische Zeichenerkennung (OCR), das das hochmoderne visuelle Sprachmodell der Ollama-Plattform nutzt, um Text aus Bildern zu extrahieren. Das Projekt ist sowohl als Python-Paket als auch als benutzerfreundliche Streamlit-Webanwendungsschnittstelle verfügbar. Es unterstützt mehrere ...

STranslate:集成多种翻译接口和OCR功能的轻便翻译工具-首席AI分享圈

STranslate: ein leichtes Übersetzungsprogramm mit mehreren Übersetzungsschnittstellen und OCR-Funktionalität

Allgemeine Einführung STranslate ist ein gebrauchsfertiges Übersetzungs- und OCR-Tool, das von WPF entwickelt wurde. Das Tool wurde entwickelt, um eine effiziente und bequeme Übersetzung und OCR-Funktionalität (Optical Character Recognition) für eine Vielzahl von Sprachen und Texttypen zu bieten.STranslate ist ein Open-Source-Projekt, das Benutzer frei herunterladen und...

VisionParser:高精度处理收据和发票的OCR工具,提供API-首席AI分享圈

VisionParser: OCR-Tool für die hochpräzise Verarbeitung von Belegen und Rechnungen, API verfügbar

Allgemeine Beschreibung VisionParser ist ein OCR-Tool (Optical Character Recognition) für die Verarbeitung von Quittungen und Rechnungen. Durch die fortschrittliche generative KI-Technologie ist VisionParser in der Lage, alle Arten von Quittungen und Rechnungen schnell und genau in strukturierte Daten für eine Vielzahl von Branchen wie Einzelhandel, Catering, B2B-Dienstleistungen... zu konvertieren.

AI-Tools
Chunkr:使用视觉模型进行文档摄取以及根据文本段落层级智能分块的一体化服务-首席AI分享圈

Chunkr: ein All-in-One-Dienst, der visuelle Modelle für die Aufnahme von Dokumenten und intelligentes Chunking auf der Grundlage von Textabsatzhierarchien verwendet

Umfassende Einführung Chunkr ist eine selbst gehostete API zur Konvertierung von PDF-, PPTX-, DOCX- und Excel-Dateien in Daten, die für die Verwendung in RAG (Retrieval Augmented Generation) und LLM (Large Language Modelling) geeignet sind. Sie wurde von Lumina AI Inc. entwickelt und verwendet fortschrittliche visuelle Modelle für die Aufnahme von Dokumenten...

Llama OCR:利用免费Llama 3.2 Vision接口,三行代码将图像转换为Markdown的OCR库-首席AI分享圈

Llama OCR: OCR-Bibliothek, die Bilder in drei Zeilen Code in Markdown umwandelt und dabei die kostenlose Llama 3.2 Vision-Schnittstelle verwendet

Allgemeine Einführung Llama OCR ist eine OCR-Bibliothek (Optical Character Recognition), die auf Llama 3.2 Vision basiert und Dokumente in das Markdown-Format konvertiert. Die von Nutlope entwickelte Bibliothek verwendet die kostenlose Llama 3.2-Schnittstelle von Together AI, um Bilder zu analysieren und Markdown-Dokumente...

Docling:支持多种格式文档解析并导出为Markdown和JSON,PDF支持OCR-首席AI分享圈

Docling: Unterstützung für eine Vielzahl von Formaten, Dokumentenparsing und Export als Markdown und JSON, PDF-Unterstützung OCR

Umfassende Einführung Docling ist ein leistungsfähiges Tool zum Parsen und Exportieren von Dokumenten, das eine Vielzahl von Dokumentenformaten unterstützt, darunter PDF, DOCX, PPTX, XLSX, Image, HTML, AsciiDoc und Markdown, und diese Dokumente in die Formate HTML, Markdown und JSON parsen und exportieren kann.

ViTLP:排版复杂PDF文档提取结构化数据,视觉引导生成文本布局预训练模型-首席AI分享圈

ViTLP: Extraktion von strukturierten Daten aus typografisch komplexen PDF-Dokumenten und visuell geführte Generierung von vortrainierten Modellen für das Textlayout

Umfassende Einführung ViTLP (Visually Guided Generative Text-Layout Pre-training for Document Intelligence) ist ein Open-Source-Projekt, das darauf abzielt, die Verarbeitung von Dokumentenintelligenz durch visuell geführte generative Text-Layout Pre-training Modelle zu verbessern. Das Projekt wurde von Veason-silverbul entwickelt...

ScreenPipe:24小时收集录屏和操作信息并转换为本地知识库,通过AI助手对话、总结、回顾知识-首席AI分享圈

ScreenPipe: 24-Stunden-Sammlung von aufgezeichneten Bildschirm- und Betriebsinformationen und Umwandlung in eine lokale Wissensbasis, durch den KI-Assistenten Dialog, Zusammenfassung, Überprüfung von Wissen

Allgemeine Einführung ScreenPipe ist ein von mediar-ai entwickelter KI-Assistent, der sich auf die Aufnahme von Bildschirminhalten, Screenshots und Audio 24/7 konzentriert. Er kombiniert die Technologie von rewind.ai und cursor.com, um aufgezeichnete Daten in einer lokalen Datenbank zu speichern und unterstützt chinesische ...

文本提取API(text-extract-api):视觉提取文本信息,匿名化的PDF提取工具-首席AI分享圈

Textextraktions-API (text-extract-api): visuelle Extraktion von Textinformationen, anonymisiertes PDF-Extraktionswerkzeug

Allgemeine Beschreibung Die Textextraktions-API (text-extract-api) ist ein leistungsfähiges Tool zum Extrahieren und Parsen von Inhalten aus einer Vielzahl von Dokumentformaten (z.B. PDF, Word, PPTX, etc.). Die API nutzt modernste OCR-Technologie (Optical Character Recognition) und Ollama-unterstützte Modelle, um jedes beliebige Dokument oder Bild zu...

图片转Excel免费工具:高效识别图片中复杂格式的表格并转换为Excel文件-首席AI分享圈

Picture to Excel Free Tool: Effizientes Erkennen von Tabellen mit komplexen Formatierungen in Bildern und Konvertieren in Excel-Dateien

Allgemeine Beschreibung Picture to Excel Free Tool ist ein effizientes Online-Tool, das schnell und präzise Tabellendaten aus Bildern in Excel-Dateien identifizieren und konvertieren kann. Das Tool unterstützt eine Vielzahl von Bildformaten, wie JPG und PNG, und kann auf Webseiten, iOS-Apps und Android-Apps verwendet werden. Durch fortschrittliche KI-Technologie...

AI-Tools
Datalab:专用OCR识别AI模型,PDF转Markdown(开源/API)-首席AI分享圈

Datalab: spezielles KI-Modell für OCR-Erkennung, PDF zu Markdown (Open Source/API)

Umfassende Einführung Datalab bietet eine Reihe von fortschrittlichen KI-Modellen mit Schwerpunkt auf OCR, Layout-Analyse, PDF zu Markdown und mehr. Diese Modelle sind nicht nur sehr leistungsfähig, sondern auch einfach zu bedienen und quelloffen. Die Marker-Modelle auf der Plattform können PDF schnell und präzise in Markdown konvertieren, einschließlich Tabellen...

eSearch:多功能跨平台OCR工具,集成搜索|翻译|搜图|录屏等功能-首席AI分享圈

eSearch: Multifunktionales plattformübergreifendes OCR-Tool, integrierte Suche | Übersetzung | Suchkarte | Bildschirmaufzeichnung und weitere Funktionen

Allgemeine Einführung eSearch ist ein von xushengfeng entwickeltes, plattformübergreifendes Open-Source-Screenshot-Tool, das Windows-, macOS- und Linux-Systeme unterstützt. eSearch integriert eine Vielzahl von Funktionen wie OCR-Erkennung, Suche, Übersetzung, Buchung, Bildsuche und Bildschirmaufzeichnung. Es integriert eine Vielzahl von Funktionen wie Screenshot, OCR-Erkennung, Suche, Übersetzung, Mapping, Bildsuche und Bildschirmaufzeichnung. eSearch verwendet Electron Box...

AI-Tools
de_DEDeutsch