AI Personal Learning
und praktische Anleitung
讯飞绘镜

pure.md: Fügen Sie "pure.md/" vor der URL ein, um sauberen Text zu extrahieren.

Allgemeine Einführung

pure.md ist ein Tool für KI-Agenten und Entwickler, das sich auf die schnelle Umwandlung von Webinhalten oder Dateien in das Markdown-Format konzentriert. Es umgeht Anti-Crawler-Beschränkungen durch Proxy-Dienste, extrahiert die Kerndaten einer Webseite und gibt eine saubere Markdown-Datei aus. Egal, ob es sich um eine dynamische Webseite, eine PDF-Datei oder um Social-Media-Inhalte handelt, pure.md kann sie effizient verarbeiten. Das Tool wird von Cloudflare und AWS unterstützt und bietet eine REST-API-Schnittstelle. Seine beste Eigenschaft ist, dass es einfach zu bedienen ist, die Zeit für die Extraktion und Organisation von Inhalten erheblich reduzieren kann und besonders für den Bedarf an Echtzeitdaten oder strukturierten Ausgabeszenarien geeignet ist.

pure.md:网址前插入“pure.md/”即可提取干净的文本-1


 

Funktionsliste

  • Quick to Markdown: Extrahieren Sie den Inhalt einer Webseite oder eines Dokuments in ein sauberes Markdown-Format.
  • Umgehung der Anti-Crawler-Erkennung: Simuliert echtes Benutzerverhalten und spinnt IP-Adressen, um auf eingeschränkte Websites zuzugreifen.
  • JavaScript-Rendering: Vollständiges Parsing dynamischer Inhalte für Single-Page-Anwendungen (SPAs).
  • PDF- und Dateikonvertierung: Unterstützung von PDF-, Excel- und anderen Dateien in Markdown.
  • Search Engine Crawling: Suchergebnisse crawlen und in Markdown integrieren.
  • Datenextraktion: Extrahieren von JSON oder Digest über POST-Anfrage, unterstützt natürlichsprachliche Befehle.
  • Unterstützung sozialer Medien: Extraktion von Daten aus Plattformen wie LinkedIn, Twitter usw. (einige Funktionen sind in Entwicklung).

 

Hilfe verwenden

pure.md erfordert keine komplizierte Installation und kann direkt über das Web oder die API verwendet werden. Im Folgenden finden Sie detaillierte Schritt-für-Schritt-Anleitungen und Funktionsbeschreibungen, damit Sie schnell loslegen können.

Grundlegende Verwendung

  1. Besuchen Sie die offizielle Website
    Geben Sie in Ihrem Browser ein https://pure.md/Die Hauptseite der Website wird auf der Hauptseite angezeigt. Sie müssen die Software nicht herunterladen, sondern können direkt online arbeiten.
  2. Geben Sie den Ziellink ein
    Setzen Sie dem Link den Zusatz https://pure.md/Es wäre zum Beispiel https://example.com umwandeln in https://pure.md/https://example.com.
  3. Abschlag erhalten
    Nach dem Absenden gibt pure.md den extrahierten Inhalt zurück, der standardmäßig im Markdown-Format ausgegeben wird. Sie können das Ergebnis kopieren oder die Datei herunterladen.

Ausgewählte Funktionen Bedienung Ablauf

1. schnelle Umwandlung in Markdown

  • Verfahren::
    • Geben Sie die Ziel-Webseite ein, z. B. https://pure.md/https://wikipedia.org.
    • Wenn Sie auf "Absenden" klicken, entfernt pure.md die Werbung und die überflüssigen Elemente und erzeugt eine Markdown-Datei mit dem Titel, dem Text und den Metadaten.
  • Wirkung::
    Die Ausgabe umfasst nur 28K Zeichen, was übersichtlicher ist als bei ähnlichen Tools (z.B. r.jina.ai's 143K) und für die KI-Verarbeitung geeignet ist. Referenz:Reader API: Werkzeug zur Extraktion von Webinhalten, Umwandlung von HTML in Markdown

2. die Umgehung der Anti-Crawler-Erkennung

  • Verfahren::
    • Geben Sie einen Link zu einer eingeschränkten Webseite ein, z. B. https://pure.md/https://science.org/article.
    • pure.md nutzt Rechenzentrumsagenten, Resident Agents oder historische Daten (Common Crawl, Wayback Machine), um Inhalte zu erhalten.
    • Wenn Sie sich anmelden müssen, fügen Sie ein Cookie in die Kopfzeile der Anfrage ein (siehe https://pure.md/docs).
  • Wirkung::
    Extrahiert erfolgreich Inhalte und konvertiert sie in Markdown, wobei Einschränkungen wie "Verify you're human" umgangen werden.

3. unterstützt JavaScript-Rendering

  • Verfahren::
    • Geben Sie einen Link zu einer dynamischen Webseite ein, z. B. https://pure.md/https://react-app.com.
    • pure.md führt das DOM-Rendering im Hintergrund durch, um den vollständigen Inhalt zu erzeugen.
    • Das Ergebnis wird in Markdown zurückgegeben.
  • Wirkung::
    Dynamische Daten (z. B. Kommentare oder Formulare) für einseitige Anwendungen werden vollständig extrahiert, so dass nicht nur leeres HTML erhalten wird.

4. die PDF- und Dokumentenkonvertierung

  • Verfahren::
    • Geben Sie den PDF-Link ein, z. B. https://pure.md/https://example.com/file.pdf.
    • Nach der Übermittlung parst pure.md die Datei und wandelt sie in Markdown um.
    • Für Excel-Dateien wird auch das Markdown-Tabellenformat unterstützt.
  • Wirkung::
    Der Inhalt des Dokuments ist in übersichtlichem Markdown mit hierarchischen Überschriften und Absätzen organisiert.

5. das Crawling der Suchmaschine

  • Verfahren::
    • Geben Sie einen Link zum Suchbegriff ein, z. B. https://pure.md/https://google.com/search?q=AI.
    • pure.md durchsucht die Suchergebnisse und fasst sie in Markdown-Strings zusammen.
  • Wirkung::
    Die neuesten Ereignisse oder Erkenntnisse werden schnell erfasst und eignen sich zur Aktualisierung von KI-Daten in Echtzeit.

6. die Datenextraktion (POST-Anfrage)

  • Verfahren::
    • Verwenden Sie für den Zugriff eine POST-Anfrage, z. B:
      POST https://pure.md/https://reuters.com
      

      Beispiel für einen Anfragetext:

      {
      "prompt": "列出今天的前5条头条",
      "model": "meta/llama-3.1-8b",
      "schema": {"type": "object", "properties": {"headlines": {"type": "array", "items": {"type": "string"}}}, "required": ["headlines"]}
      }
      
    • Gibt JSON- oder Markdown-Ergebnisse zurück.
  • Wirkung::
    Die Extraktion strukturierter Daten auf der Grundlage natürlichsprachlicher Anweisungen ist für komplexe Aufgaben geeignet.

7. die Unterstützung sozialer Medien (in Entwicklung)

  • Verfahren::
    • Geben Sie einen LinkedIn- oder Twitter-Link ein, z. B. https://pure.md/https://twitter.com/user/tweet.
    • pure.md extrahiert Inhalte über einen Datenanbieter.
  • Wirkung::
    Ausgabe in Markdown für Beiträge oder Profile, mit Unterstützung für weitere Plattformen in der Zukunft.

Preisgestaltung & Konten

  • Einschreibung: Zugang https://pure.md/loginSie können $1-Guthaben kostenlos erhalten.
  • einen Preis festlegen::
    • Starter: 60 Anfragen pro Minute, $0,001/Extraktion, $0,005/Suche.
    • Wachstum: $19/Monat, 600 Anfragen/Minute mit $20 Gratis-Guthaben.
    • Business: $99/Monat, 3000 Anfragen/Minute mit $100 Gratis-Guthaben.
  • bezahlen (Geld)Abgewickelt über Stripe, mit der Möglichkeit der jederzeitigen Kündigung.

caveat

  • Die kostenlose Version hat strenge Beschränkungen, und es wird empfohlen, ein Abonnement abzuschließen, um die volle Funktionalität freizuschalten.
  • Bei großen Seiten oder Dateien dauert die Verarbeitung etwas länger, in der Regel 5-30 Sekunden.
  • Die Funktionen für die sozialen Medien sind noch nicht vollständig aktiviert, bleiben Sie also dran.

Mit diesen Schritten können Sie Inhalte leicht extrahieren und mit pure.md in Markdown konvertieren, was einfach und effizient ist.

 

Anwendungsszenario

  1. AI Datenerfassung
    KI-Entwickler benötigen Webdaten, um Modelle zu trainieren. pure.md extrahiert und konvertiert sie schnell in Markdown, wodurch die Vorverarbeitung reduziert wird.
  2. Forschung und Studium
    Die Schüler konvertieren PDFs oder Webseiten in Markdown, um Notizen oder Zitate leichter organisieren zu können.
  3. Nachrichtenüberwachung
    Enterprise durchsucht Live-Nachrichten. pure.md durchsucht Suchergebnisse und gibt Markdown aus, um Informationen auf dem neuesten Stand zu halten.

 

QA

  1. Benötigen Sie eine Kreditkarte für die Anmeldung?
    Nicht nötig, melden Sie sich an und erhalten Sie $1 kostenloses Guthaben.
  2. Welche Dateitypen werden unterstützt?
    Derzeit werden HTML, PDF und Excel unterstützt, und Bilder können über AI in Beschreibungen umgewandelt werden.
  3. Kann ich auf die eingeloggten Inhalte zugreifen?
    Ja, aber Sie müssen ein Cookie angeben, siehe Dokumentation.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " pure.md: Fügen Sie "pure.md/" vor der URL ein, um sauberen Text zu extrahieren.
de_DEDeutsch