Allgemeine Einführung
pure.md ist ein Tool für KI-Agenten und Entwickler, das sich auf die schnelle Umwandlung von Webinhalten oder Dateien in das Markdown-Format konzentriert. Es umgeht Anti-Crawler-Beschränkungen durch Proxy-Dienste, extrahiert die Kerndaten einer Webseite und gibt eine saubere Markdown-Datei aus. Egal, ob es sich um eine dynamische Webseite, eine PDF-Datei oder um Social-Media-Inhalte handelt, pure.md kann sie effizient verarbeiten. Das Tool wird von Cloudflare und AWS unterstützt und bietet eine REST-API-Schnittstelle. Seine beste Eigenschaft ist, dass es einfach zu bedienen ist, die Zeit für die Extraktion und Organisation von Inhalten erheblich reduzieren kann und besonders für den Bedarf an Echtzeitdaten oder strukturierten Ausgabeszenarien geeignet ist.
Funktionsliste
- Quick to Markdown: Extrahieren Sie den Inhalt einer Webseite oder eines Dokuments in ein sauberes Markdown-Format.
- Umgehung der Anti-Crawler-Erkennung: Simuliert echtes Benutzerverhalten und spinnt IP-Adressen, um auf eingeschränkte Websites zuzugreifen.
- JavaScript-Rendering: Vollständiges Parsing dynamischer Inhalte für Single-Page-Anwendungen (SPAs).
- PDF- und Dateikonvertierung: Unterstützung von PDF-, Excel- und anderen Dateien in Markdown.
- Search Engine Crawling: Suchergebnisse crawlen und in Markdown integrieren.
- Datenextraktion: Extrahieren von JSON oder Digest über POST-Anfrage, unterstützt natürlichsprachliche Befehle.
- Unterstützung sozialer Medien: Extraktion von Daten aus Plattformen wie LinkedIn, Twitter usw. (einige Funktionen sind in Entwicklung).
Hilfe verwenden
pure.md erfordert keine komplizierte Installation und kann direkt über das Web oder die API verwendet werden. Im Folgenden finden Sie detaillierte Schritt-für-Schritt-Anleitungen und Funktionsbeschreibungen, damit Sie schnell loslegen können.
Grundlegende Verwendung
- Besuchen Sie die offizielle Website
Geben Sie in Ihrem Browser einhttps://pure.md/
Die Hauptseite der Website wird auf der Hauptseite angezeigt. Sie müssen die Software nicht herunterladen, sondern können direkt online arbeiten. - Geben Sie den Ziellink ein
Setzen Sie dem Link den Zusatzhttps://pure.md/
Es wäre zum Beispielhttps://example.com
umwandeln inhttps://pure.md/https://example.com
. - Abschlag erhalten
Nach dem Absenden gibt pure.md den extrahierten Inhalt zurück, der standardmäßig im Markdown-Format ausgegeben wird. Sie können das Ergebnis kopieren oder die Datei herunterladen.
Ausgewählte Funktionen Bedienung Ablauf
1. schnelle Umwandlung in Markdown
- Verfahren::
- Geben Sie die Ziel-Webseite ein, z. B.
https://pure.md/https://wikipedia.org
. - Wenn Sie auf "Absenden" klicken, entfernt pure.md die Werbung und die überflüssigen Elemente und erzeugt eine Markdown-Datei mit dem Titel, dem Text und den Metadaten.
- Geben Sie die Ziel-Webseite ein, z. B.
- Wirkung::
Die Ausgabe umfasst nur 28K Zeichen, was übersichtlicher ist als bei ähnlichen Tools (z.B. r.jina.ai's 143K) und für die KI-Verarbeitung geeignet ist. Referenz:Reader API: Werkzeug zur Extraktion von Webinhalten, Umwandlung von HTML in Markdown
2. die Umgehung der Anti-Crawler-Erkennung
- Verfahren::
- Geben Sie einen Link zu einer eingeschränkten Webseite ein, z. B.
https://pure.md/https://science.org/article
. - pure.md nutzt Rechenzentrumsagenten, Resident Agents oder historische Daten (Common Crawl, Wayback Machine), um Inhalte zu erhalten.
- Wenn Sie sich anmelden müssen, fügen Sie ein Cookie in die Kopfzeile der Anfrage ein (siehe
https://pure.md/docs
).
- Geben Sie einen Link zu einer eingeschränkten Webseite ein, z. B.
- Wirkung::
Extrahiert erfolgreich Inhalte und konvertiert sie in Markdown, wobei Einschränkungen wie "Verify you're human" umgangen werden.
3. unterstützt JavaScript-Rendering
- Verfahren::
- Geben Sie einen Link zu einer dynamischen Webseite ein, z. B.
https://pure.md/https://react-app.com
. - pure.md führt das DOM-Rendering im Hintergrund durch, um den vollständigen Inhalt zu erzeugen.
- Das Ergebnis wird in Markdown zurückgegeben.
- Geben Sie einen Link zu einer dynamischen Webseite ein, z. B.
- Wirkung::
Dynamische Daten (z. B. Kommentare oder Formulare) für einseitige Anwendungen werden vollständig extrahiert, so dass nicht nur leeres HTML erhalten wird.
4. die PDF- und Dokumentenkonvertierung
- Verfahren::
- Geben Sie den PDF-Link ein, z. B.
https://pure.md/https://example.com/file.pdf
. - Nach der Übermittlung parst pure.md die Datei und wandelt sie in Markdown um.
- Für Excel-Dateien wird auch das Markdown-Tabellenformat unterstützt.
- Geben Sie den PDF-Link ein, z. B.
- Wirkung::
Der Inhalt des Dokuments ist in übersichtlichem Markdown mit hierarchischen Überschriften und Absätzen organisiert.
5. das Crawling der Suchmaschine
- Verfahren::
- Geben Sie einen Link zum Suchbegriff ein, z. B.
https://pure.md/https://google.com/search?q=AI
. - pure.md durchsucht die Suchergebnisse und fasst sie in Markdown-Strings zusammen.
- Geben Sie einen Link zum Suchbegriff ein, z. B.
- Wirkung::
Die neuesten Ereignisse oder Erkenntnisse werden schnell erfasst und eignen sich zur Aktualisierung von KI-Daten in Echtzeit.
6. die Datenextraktion (POST-Anfrage)
- Verfahren::
- Verwenden Sie für den Zugriff eine POST-Anfrage, z. B:
POST https://pure.md/https://reuters.com
Beispiel für einen Anfragetext:
{ "prompt": "列出今天的前5条头条", "model": "meta/llama-3.1-8b", "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]} }
- Gibt JSON- oder Markdown-Ergebnisse zurück.
- Verwenden Sie für den Zugriff eine POST-Anfrage, z. B:
- Wirkung::
Die Extraktion strukturierter Daten auf der Grundlage natürlichsprachlicher Anweisungen ist für komplexe Aufgaben geeignet.
7. die Unterstützung sozialer Medien (in Entwicklung)
- Verfahren::
- Geben Sie einen LinkedIn- oder Twitter-Link ein, z. B.
https://pure.md/https://twitter.com/user/tweet
. - pure.md extrahiert Inhalte über einen Datenanbieter.
- Geben Sie einen LinkedIn- oder Twitter-Link ein, z. B.
- Wirkung::
Ausgabe in Markdown für Beiträge oder Profile, mit Unterstützung für weitere Plattformen in der Zukunft.
Preisgestaltung & Konten
- Einschreibung: Zugang
https://pure.md/login
Sie können $1-Guthaben kostenlos erhalten. - einen Preis festlegen::
- Starter: 60 Anfragen pro Minute, $0,001/Extraktion, $0,005/Suche.
- Wachstum: $19/Monat, 600 Anfragen/Minute mit $20 Gratis-Guthaben.
- Business: $99/Monat, 3000 Anfragen/Minute mit $100 Gratis-Guthaben.
- bezahlen (Geld)Abgewickelt über Stripe, mit der Möglichkeit der jederzeitigen Kündigung.
caveat
- Die kostenlose Version hat strenge Beschränkungen, und es wird empfohlen, ein Abonnement abzuschließen, um die volle Funktionalität freizuschalten.
- Bei großen Seiten oder Dateien dauert die Verarbeitung etwas länger, in der Regel 5-30 Sekunden.
- Die Funktionen für die sozialen Medien sind noch nicht vollständig aktiviert, bleiben Sie also dran.
Mit diesen Schritten können Sie Inhalte leicht extrahieren und mit pure.md in Markdown konvertieren, was einfach und effizient ist.
Anwendungsszenario
- AI Datenerfassung
KI-Entwickler benötigen Webdaten, um Modelle zu trainieren. pure.md extrahiert und konvertiert sie schnell in Markdown, wodurch die Vorverarbeitung reduziert wird. - Forschung und Studium
Die Schüler konvertieren PDFs oder Webseiten in Markdown, um Notizen oder Zitate leichter organisieren zu können. - Nachrichtenüberwachung
Enterprise durchsucht Live-Nachrichten. pure.md durchsucht Suchergebnisse und gibt Markdown aus, um Informationen auf dem neuesten Stand zu halten.
QA
- Benötigen Sie eine Kreditkarte für die Anmeldung?
Nicht nötig, melden Sie sich an und erhalten Sie $1 kostenloses Guthaben. - Welche Dateitypen werden unterstützt?
Derzeit werden HTML, PDF und Excel unterstützt, und Bilder können über AI in Beschreibungen umgewandelt werden. - Kann ich auf die eingeloggten Inhalte zugreifen?
Ja, aber Sie müssen ein Cookie angeben, siehe Dokumentation.