AI Personal Learning
und praktische Anleitung
豆包Marscode1

Supametas.AI: Extraktion unstrukturierter Daten in hochverfügbare LLM-Daten

Allgemeine Einführung

Supametas.AI ist eine Datenverarbeitungsplattform, die sich darauf spezialisiert hat, das Durcheinander von Webseiten, Dokumenten, Audio und Video in strukturierte Daten umzuwandeln, die KI nutzen kann. Sie unterstützt das Sammeln von Daten aus verschiedenen Quellen, einschließlich Weblinks, APIs, lokalen Dateien usw., und gibt sie dann im JSON- oder Markdown-Format aus. Für die Plattform sind keine Programmierkenntnisse erforderlich, so dass auch Normalsterbliche schnell einsteigen können. Ihr Hauptvorteil besteht darin, dass sie die Datenverarbeitungszeit, die traditionell Monate dauert, auf 30 Minuten reduziert, was sie besonders für Unternehmen und Entwickler zum Aufbau von KI-Wissensdatenbanken (LLM RAGs) geeignet macht. Supametas.AI bietet Cloud-Dienste und künftige private Implementierungen, um den Bedürfnissen verschiedener Nutzer gerecht zu werden.

Supametas.AI:提取非结构化数据为LLM高可用数据-1


 

Funktionsliste

  • Datenerhebung aus mehreren QuellenUnterstützt die Datenextraktion aus Webseiten-URLs, API-Schnittstellen, lokalen Dateien (PDF, Word, Bilder, Audio, Video).
  • Strukturierte AusgabeKonvertierung ungeordneter Daten in JSON oder Markdown zur Anpassung an KI-Modelle.
  • Integration der WissensdatenbankAndocken an OpenAI Storage, Dify Datasets oder benutzerdefinierte Integration über API.
  • Extraktion natürlicher Sprache (NLE)Aufforderung zur Eingabe der extrahierten Felder in einfacher Sprache, z. B. "Grab title and body".
  • Komplexes Web-CrawlingAutomatische Handhabung von Listenseiten, Paginierung, mehrschichtigen Seiten und Unterstützung zeitgesteuerter Aktualisierungen.
  • Umgang mit großen DateienUnterstützung für Dateien mit Hunderten von MB, z. B. lange Dokumente oder HD-Videos.
  • Audio- und VideoverarbeitungAuszug aus der Zeitleiste, Untertitel, Dialoge, etc.
  • no-code SchnittstelleEinfach zu bedienen, kein technischer Hintergrund erforderlich.
  • DatenschutzBietet Cloud-Services und private Docker-Bereitstellungsoptionen.

 

Hilfe verwenden

Supametas.AI erfordert keine komplexe Softwareinstallation und funktioniert direkt im Internet. Nachfolgend finden Sie eine detaillierte Beschreibung der Hauptfunktionen, um den Benutzern einen schnellen Einstieg zu ermöglichen.

Registrieren & Anmelden

  1. zeigen (eine Eintrittskarte) https://supametas.ai/zhKlicken Sie auf "Loslegen".
  2. Melden Sie sich mit Ihrer E-Mail-Adresse an, oder wählen Sie ein Google-Konto zur Anmeldung.
  3. Wenn Sie sich anmelden, erhalten Sie einen kostenlosen Testmodus, der grundlegende Funktionen und einige Ressourcen enthält.

Datenerhebung und -verarbeitung

Web-Crawler

  1. Klicken Sie nach dem Einloggen auf Neuer Datensatz.
  2. Wählen Sie die Datenquelle "URL" und geben Sie die Ziel-Webseite ein, z. B. https://example.com/blog.
  3. Legt die Crawl-Parameter fest:
    • "Depth Value": Setzen Sie diesen Wert auf 3, um drei Ebenen von Seiten zu crawlen.
    • "Schleifenzeitwert: Setzen Sie den Wert auf 24 für tägliche Aktualisierungen.
  4. Klicken Sie auf "Verarbeitung starten" und das System extrahiert automatisch den Titel, den Text usw.
  5. Wenn der Vorgang abgeschlossen ist, klicken Sie auf Exportieren und wählen Sie entweder JSON oder Markdown zum Herunterladen.

Lokale Dokumentenverarbeitung

  1. Wählen Sie auf dem Bildschirm Neuer Datensatz die Option Lokale Datei.
  2. Klicken Sie auf "Datei hochladen", um Dateien per Drag & Drop hochzuladen oder auszuwählen.
  3. Folgende Formate werden unterstützt:
    • Dokumentation:.docxund.pdfund.txt
    • Bild:.jpgund.png
    • Audio-Video:.mp3und.mp4und.mov
  4. Nach dem Hochladen extrahiert das System automatisch den Inhalt. Zum Beispiel extrahiert PDF Absätze und MP3 transkribiert Text.
  5. Überprüfen Sie die Ergebnisse und klicken Sie zum Speichern auf "Exportieren".

API-Datenabruf

  1. Wählen Sie die Datenquelle "API".
  2. Geben Sie die API-Konfiguration ein, zum Beispiel:
{
"contentUrl": "https://api.example.com/data",
"getDemandFormat": "json",
"customKeys": [{"key": "category", "desc": "分类"}]
}
  1. Klicken Sie auf "Test", um sicherzustellen, dass die Daten korrekt zurückgegeben werden.
  2. Nachdem der Test bestanden wurde, klicken Sie auf "Verarbeitung starten", um strukturierte Daten zu erzeugen.

integrierte Wissensbasis

  1. Nach der Verarbeitung der Daten klicken Sie auf Integrieren.
  2. Wählen Sie eine Zielplattform aus, z. B. OpenAI Storage oder Dify Datensätze.
  3. Geben Sie den API-Schlüssel der Plattform ein (der auf der Zielplattform generiert wurde).
  4. Klicken Sie auf "Verbinden" und die Daten werden automatisch hochgeladen.
  5. Wenn Sie die Integration anpassen, kopieren Sie den von der Plattform bereitgestellten API-Code in Ihr Projekt.

Zeitgesteuerte Aufgabenstellung

  1. Klicken Sie auf der Seite Dataset auf Einstellungen.
  2. Wählen Sie Aktualisierungszeitplan und stellen Sie ihn auf Alle 24 Stunden ein.
  3. Nach dem Speichern erfasst und verarbeitet das System die Daten automatisch im Hintergrund.

Featured Function Bedienung

Audio- und Videoextraktion

  1. hochladen .mp4 Dokumentation.
  2. Das System erstellt eine Zeitleiste und einen Dialogtext wie "00:01 - Hallo".
  3. Zeigen Sie die Ergebnisse in der Vorschau an und exportieren Sie sie anschließend, um sie für die Bearbeitung von digitalen Personen oder Podcasts zu verwenden.

Extraktion natürlichsprachlicher Felder

  1. Geben Sie in den Crawl-Einstellungen eine Aufforderung ein, z. B. "Artikel-Titel und Datum extrahieren".
  2. Das System identifiziert und sortiert die Felder automatisch auf der Grundlage von Eingabeaufforderungen.

Umgang mit großen Dateien

  1. Hunderte von MB an PDFs oder Videos hochladen.
  2. Das System wird in Segmenten verarbeitet und liefert nach Abschluss vollständig strukturierte Daten.

caveat

  • Die kostenlose Version begrenzt die Anzahl der Datensätze und die Verarbeitungskapazität, ein Upgrade auf die kostenpflichtige Version schaltet mehr Ressourcen frei.
  • Große Dateien oder komplexe Aufgaben erfordern möglicherweise mehr Token, die an ein externes Modell (z. B. OpenAI) gebunden werden können.
  • Im Task-Manager können Sie den Fortschritt einer Aufgabe anzeigen oder die Aufgabe abbrechen.
  • Eine Version für den privaten Einsatz (Docker) wird derzeit für Unternehmensanwender entwickelt.

Supametas.AI hat eine benutzerfreundliche Oberfläche mit Anleitungen für jeden Schritt. Es wird empfohlen, zunächst die kostenlose Version auszuprobieren und bei Bedarf ein Upgrade vorzunehmen, sobald Sie mit der Software vertraut sind.

 

Anwendungsszenario

  1. Aufbau einer Wissensdatenbank für Unternehmen
    Finanzunternehmen können damit regulatorische Webseiten und PDFs durchsuchen, sie in strukturierte Daten umwandeln und sie zur Analyse an KI weiterleiten.
  2. Digitale menschliche Entwicklung
    Laden Sie Audio- und Videoclips hoch, extrahieren Sie Dialoge und Zeitleisten und erstellen Sie einen Trainingsdatensatz.
  3. Verwaltung von E-Commerce-Daten
    Erfassen Sie regelmäßig Produktlisten und -details, fassen Sie sie in JSON zusammen und optimieren Sie die Bestandsanalyse.

 

QA

  1. Was sind die Einschränkungen der kostenlosen Version?
    Die kostenlose Version hat keine zeitliche Begrenzung, aber die Anzahl der Datensätze und die Verarbeitungskapazität sind begrenzt, so dass sie sich für Versuche eignet.
  2. Welche Dateigrößen werden unterstützt?
    Verarbeitet Dateien von Hunderten von Megabytes, wie lange Dokumente oder HD-Videos.
  3. Wie gewährleisten Sie den Datenschutz?
    Cloud-Dienste verschlüsseln die Übertragung, und mit der Docker Private Deployment Edition sind die Daten vollständig lokalisiert.
Darf nicht ohne Genehmigung vervielfältigt werden:Leiter des AI-Austauschkreises " Supametas.AI: Extraktion unstrukturierter Daten in hochverfügbare LLM-Daten
de_DEDeutsch