AI Personal Learning
und praktische Anleitung

Reader API: Werkzeug zur Extraktion von Webinhalten, Umwandlung von HTML in Markdown

Allgemeine Einführung

 

Das Reader-Projekt von Jina AI ist ein Open-Source-Tool (Open-Source-Adresse des Lesers), die durch Hinzufügen des Präfixes https://r.jina.ai/转换成适合大型语言模型(Large Language Models, LLM) zum Eingabeformat eine beliebige URL annehmen kann und Funktionen wie den dynamischen Streaming-Modus und das Lesen von Bildern unterstützt.


Benutzer können den Kerninhalt von Webseiten leicht erfassen und in sauberen, geeigneten Text für die LLM-Verarbeitung umwandeln. Das Tool unterstützt nicht nur Webseitentext, sondern verarbeitet auch Bilder und PDF-Dateien und fügt automatisch die erforderlichen Tags und Formatierungen hinzu, damit LLM den Inhalt besser verstehen und verarbeiten kann. Das Projekt läuft mit Node v18 und Firebase CLI und ist unter der Apache 2.0 Lizenz verfügbar.

 

Reader API: Werkzeug zur Extraktion von Webinhalten, Konvertierung von HTML in Markdown-1

 

 

Funktionsliste

  • Extraktion von WebinhaltenKonvertiert jede URL in ein LLM-freundliches Textformat.
  • BilderkennungAutomatisches Generieren von beschreibenden Tags für Bilder in Webseiten.
  • PDF-LesenUnterstützung des Lesens von PDF-Dateien von einer beliebigen URL und deren Umwandlung in einen für LLM geeigneten Text.
  • Suchfunktion: Holen Sie sich die neuesten Informationen aus dem Internet und konvertieren Sie sie in ein LLM-freundliches Format, indem Sie der Abfrage den Zusatz "s.jina.ai" voranstellen.
  • Hohe Gleichzeitigkeit und ZuverlässigkeitBietet eine hohe Zugänglichkeit und Zuverlässigkeit, um eine große Anzahl gleichzeitiger Anfragen zu unterstützen.

 

 

Hilfe verwenden

Installation und Nutzung

Jina AI Reader muss nicht installiert werden, die Benutzer müssen lediglich das Präfix "r.jina.ai" an die URL anhängen. Um zum Beispiel die URL "https://en.wikipedia.org/wiki/Artificial_intelligence" in ein LLM-freundliches Eingabeformat umzuwandeln, verwenden Sie einfach die folgende URL:

https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence

Um eine Websuche durchzuführen und LLM-freundliche Ergebnisse zu erhalten, stellen Sie der Suchanfrage z. B. "s.jina.ai" voran:

https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F

Funktion Betriebsablauf

  1. Extraktion von Webinhalten::
    • Geben Sie die URL in Ihrem Browser mit dem Präfix ein, z. B. "https://r.jina.ai/https://example.com".
    • Wenn Sie die Eingabetaste drücken, extrahiert Jina AI Reader automatisch den Inhalt der Webseite und konvertiert ihn in das LLM-freundliche Textformat.
    • Der extrahierte Inhalt wird im Browser angezeigt und der Benutzer kann ihn direkt kopieren oder weiterverarbeiten.
  2. Bilderkennung::
    • Beim Extrahieren des Inhalts einer Webseite erzeugt Jina AI Reader automatisch beschreibende Tags für die Bilder auf der Webseite.
    • Diese Tags werden als Alt-Attribute des Bildes verwendet, um dem LLM das Verständnis des Bildinhaltes während der Verarbeitung zu erleichtern.
  3. PDF-Lesen::
    • Geben Sie die PDF-URL mit einem Präfix ein, z. B. "https://r.jina.ai/https://example.com/document.pdf".
    • Jina AI Reader liest automatisch PDF-Inhalte und konvertiert sie in das LLM-freundliche Textformat.
    • Der umgewandelte Inhalt wird im Browser angezeigt und kann vom Benutzer direkt kopiert oder weiterverarbeitet werden.
  4. Suchfunktion::
    • Fügen Sie der Abfrage das Präfix "s.jina.ai" hinzu, z. B. "https://s.jina.ai/your+query".
    • Drücken Sie die Eingabetaste und Jina AI Reader holt die neuesten Informationen aus dem Internet und wandelt sie in ein LLM-freundliches Textformat um.
    • Die Suchergebnisse werden im Browser angezeigt und der Nutzer kann sie direkt kopieren oder weiterverarbeiten.

Erweiterte Einstellungen

  • Bildbeschreibungs-TagsStandardmäßig ist die Funktion der Bildbeschreibungs-Tags ausgeschaltet. Benutzer können sie aktivieren, indem sie "x-with-generated-alt: true" in der Kopfzeile der Anfrage angeben.
  • Proxies und CookiesBenutzer können Proxys und Cookies in der Kopfzeile der Anfrage setzen, um Jina AI Reader in einem bestimmten Kontext zu verwenden.

 

Streaming-Modus
Um Inhalte zu verarbeiten, sobald sie verfügbar sind, setzen Sie den Request-Header auf Stream-Modus. Dadurch wird die Zeit bis zum Empfang des ersten Bytes minimiert. Beispiel in curl:
locken. -H "Akzeptieren: text/event-stream" https://r.jina.ai/https://example.com

 

 

Ein anderes HTML-zu-Markdown-Tool empfehlen

Chef-KI-AustauschkreisDieser Inhalt wurde vom Autor versteckt. Bitte geben Sie den Verifizierungscode ein, um den Inhalt zu sehen.
Captcha:
Bitte beachten Sie diese Website WeChat öffentliche Nummer, Antwort "CAPTCHA, eine Art Challenge-Response-Test (Computer)", erhalten Sie den Verifizierungscode. Suchen Sie in WeChat nach "Chef-KI-Austauschkreis"oder"Looks-AI" oder WeChat, indem Sie die rechte Seite des QR-Codes scannen, können Sie die öffentliche WeChat-Nummer dieser Website aufrufen.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Reader API: Werkzeug zur Extraktion von Webinhalten, Umwandlung von HTML in Markdown

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)