AI Personal Learning
und praktische Anleitung

Chonkie: eine leichtgewichtige RAG Text Chunking Bibliothek

Allgemeine Einführung

Chonkie ist eine leichtgewichtige und effiziente RAG (Retrieval-Augmented Generation)-Text-Chunking-Bibliothek, die Entwicklern helfen soll, Text schnell und einfach zu chunking. Die Bibliothek unterstützt eine Vielzahl von Chunking-Methoden, darunter Token-, Wort-, Satz- und semantische Ähnlichkeit-basiertes Chunking, und eignet sich für eine breite Palette von Textverarbeitungs- und natürlichen Sprachverarbeitungsaufgaben. Die Standardinstallation benötigt nur 21MB (andere ähnliche Produkte benötigen 80-171MB). Unterstützt alle wichtigen Chunkers.

 

Funktionsliste

  • TokenChunkerAufteilung des Textes in Markierungsblöcke fester Größe.
  • WordChunkerText anhand von Wörtern in Abschnitte unterteilen.
  • SentenceChunkerUnterteilen Sie den Text in Abschnitte, die auf Sätzen basieren.
  • SemanticChunkerAufteilung von Text in Abschnitte auf der Grundlage semantischer Ähnlichkeit.
  • SDPMChunkerSegmentierung von Text mit Hilfe eines semantischen Double-Merge-Ansatzes.

 

Hilfe verwenden

Montage

Um Chonkie zu installieren, führen Sie einfach den folgenden Befehl aus:

pip install chonkie

Chonkie folgt dem Prinzip der minimalen Standardinstallation und empfiehlt, bestimmte Chunkers nach Bedarf zu installieren, oder alle, wenn Sie keine Abhängigkeiten berücksichtigen wollen (nicht empfohlen).

pip install chonkie[all]

ausnutzen

Hier ein einfaches Beispiel, das Ihnen den Einstieg erleichtert:

  1. Importieren Sie zunächst den gewünschten Chunker:
    von chonkie importieren TokenChunker
    
  2. Importieren Sie Ihre bevorzugte Tokeniser-Bibliothek (AutoTokenizer, TikToken und AutoTikTokenizer werden unterstützt):
    from tokenizers import Tokenizer
    tokenizer = Tokenizer.from_pretrained("gpt2")
    
  3. Initialisieren Sie den Chunker:
    chunker = TokenChunker(tokenizer)
    
  4. Den Text gliedern:
    chunks = chunker("Woah! Chonkie, die Chunking-Bibliothek ist so cool! Ich liebe das kleine Nilpferd hehe.")
    
  5. Zugriff auf die Chunking-Ergebnisse:
    for chunk in chunks:
    print(f "Chunk: {chunk.text}")
    print(f"Wertmarken: {chunk.token_count}")
    

Methoden der Unterstützung

Chonkie bietet eine breite Palette von Chunkern, mit denen Sie effizient Ihre eigenen Chunks für das Internet erstellen und verteilen können. RAG Die Anwendung zerlegt den Text. Im Folgenden finden Sie einen kurzen Überblick über die verfügbaren Chunker:

  • TokenChunkerAufteilung des Textes in Markierungsblöcke fester Größe.
  • WordChunkerText anhand von Wörtern in Abschnitte unterteilen.
  • SentenceChunkerUnterteilen Sie den Text in Abschnitte, die auf Sätzen basieren.
  • SemanticChunkerAufteilung von Text in Abschnitte auf der Grundlage semantischer Ähnlichkeit.
  • SDPMChunkerSegmentierung von Text mit Hilfe eines semantischen Double-Merge-Ansatzes.

Benchmarking

Chonkie schneidet in mehreren Benchmarks gut ab:

  • GrößenDie Standardinstallation ist nur 9,7 MB groß (im Vergleich zu 80-171 MB bei anderen Versionen), was immer noch weniger ist als bei der Konkurrenz, selbst wenn semantisches Chunking enthalten ist.
  • TempoTag Chunking ist 33x schneller als die langsamste Alternative, Satz Chunking ist fast 2x schneller als die Konkurrenz, und semantisches Chunking ist 2,5x schneller als andere Methoden.

Detaillierte Vorgehensweise

  1. InstallateurInstallieren Sie Chonkie und die benötigten Tagger-Bibliotheken über pip.
  2. ImportbibliothekImportieren Sie Chonkie und die Tagger-Bibliothek in Ihre Python-Skripte.
  3. Initialisierung des ChunkersChunker: Wählen Sie den für Ihre Bedürfnisse geeigneten Chunker aus und initialisieren Sie ihn.
  4. gestückelter TextChunking: Zerlegen des Textes mit dem initialisierten Chunker.
  5. ErgebnisIterieren durch die Chunking-Ergebnisse für die weitere Verarbeitung oder Analyse.

AI Leichtes Lernen

Der Leitfaden für Laien zum Einstieg in die KI

Hilft Ihnen, die Nutzung von KI-Tools kostengünstig und von Null an zu erlernen.KI ist, wie Bürosoftware, eine wesentliche Fähigkeit für jeden. Die Beherrschung von KI verschafft Ihnen einen Vorteil bei der Stellensuche und die Hälfte des Aufwands bei Ihrer zukünftigen Arbeit und Ihrem Studium.

Details ansehen>
Darf nicht ohne Genehmigung vervielfältigt werden:Chef-KI-Austauschkreis " Chonkie: eine leichtgewichtige RAG Text Chunking Bibliothek

Chef-KI-Austauschkreis

Der Chief AI Sharing Circle konzentriert sich auf das KI-Lernen und bietet umfassende KI-Lerninhalte, KI-Tools und praktische Anleitungen. Unser Ziel ist es, den Nutzern dabei zu helfen, die KI-Technologie zu beherrschen und gemeinsam das unbegrenzte Potenzial der KI durch hochwertige Inhalte und den Austausch praktischer Erfahrungen zu erkunden. Egal, ob Sie ein KI-Anfänger oder ein erfahrener Experte sind, dies ist der ideale Ort für Sie, um Wissen zu erwerben, Ihre Fähigkeiten zu verbessern und Innovationen zu verwirklichen.

Kontaktieren Sie uns
de_DE_formalDeutsch (Sie)