Allgemeine Einführung
Chonkie ist eine leichtgewichtige und effiziente RAG (Retrieval-Augmented Generation)-Text-Chunking-Bibliothek, die Entwicklern helfen soll, Text schnell und einfach zu chunking. Die Bibliothek unterstützt eine Vielzahl von Chunking-Methoden, darunter Token-, Wort-, Satz- und semantische Ähnlichkeit-basiertes Chunking, und eignet sich für eine breite Palette von Textverarbeitungs- und natürlichen Sprachverarbeitungsaufgaben. Die Standardinstallation benötigt nur 21MB (andere ähnliche Produkte benötigen 80-171MB). Unterstützt alle wichtigen Chunkers.
Funktionsliste
- TokenChunkerAufteilung des Textes in Markierungsblöcke fester Größe.
- WordChunkerText anhand von Wörtern in Abschnitte unterteilen.
- SentenceChunkerUnterteilen Sie den Text in Abschnitte, die auf Sätzen basieren.
- SemanticChunkerAufteilung von Text in Abschnitte auf der Grundlage semantischer Ähnlichkeit.
- SDPMChunkerSegmentierung von Text mit Hilfe eines semantischen Double-Merge-Ansatzes.
Hilfe verwenden
Montage
Um Chonkie zu installieren, führen Sie einfach den folgenden Befehl aus:
pip install chonkie
Chonkie folgt dem Prinzip der minimalen Standardinstallation und empfiehlt, bestimmte Chunkers nach Bedarf zu installieren, oder alle, wenn Sie keine Abhängigkeiten berücksichtigen wollen (nicht empfohlen).
pip install chonkie[all]
ausnutzen
Hier ein einfaches Beispiel, das Ihnen den Einstieg erleichtert:
- Importieren Sie zunächst den gewünschten Chunker:
von chonkie importieren TokenChunker
- Importieren Sie Ihre bevorzugte Tokeniser-Bibliothek (AutoTokenizer, TikToken und AutoTikTokenizer werden unterstützt):
from tokenizers import Tokenizer tokenizer = Tokenizer.from_pretrained("gpt2")
- Initialisieren Sie den Chunker:
chunker = TokenChunker(tokenizer)
- Den Text gliedern:
chunks = chunker("Woah! Chonkie, die Chunking-Bibliothek ist so cool! Ich liebe das kleine Nilpferd hehe.")
- Zugriff auf die Chunking-Ergebnisse:
for chunk in chunks: print(f "Chunk: {chunk.text}") print(f"Wertmarken: {chunk.token_count}")
Methoden der Unterstützung
Chonkie bietet eine breite Palette von Chunkern, mit denen Sie effizient Ihre eigenen Chunks für das Internet erstellen und verteilen können. RAG Die Anwendung zerlegt den Text. Im Folgenden finden Sie einen kurzen Überblick über die verfügbaren Chunker:
- TokenChunkerAufteilung des Textes in Markierungsblöcke fester Größe.
- WordChunkerText anhand von Wörtern in Abschnitte unterteilen.
- SentenceChunkerUnterteilen Sie den Text in Abschnitte, die auf Sätzen basieren.
- SemanticChunkerAufteilung von Text in Abschnitte auf der Grundlage semantischer Ähnlichkeit.
- SDPMChunkerSegmentierung von Text mit Hilfe eines semantischen Double-Merge-Ansatzes.
Benchmarking
Chonkie schneidet in mehreren Benchmarks gut ab:
- GrößenDie Standardinstallation ist nur 9,7 MB groß (im Vergleich zu 80-171 MB bei anderen Versionen), was immer noch weniger ist als bei der Konkurrenz, selbst wenn semantisches Chunking enthalten ist.
- TempoTag Chunking ist 33x schneller als die langsamste Alternative, Satz Chunking ist fast 2x schneller als die Konkurrenz, und semantisches Chunking ist 2,5x schneller als andere Methoden.
Detaillierte Vorgehensweise
- InstallateurInstallieren Sie Chonkie und die benötigten Tagger-Bibliotheken über pip.
- ImportbibliothekImportieren Sie Chonkie und die Tagger-Bibliothek in Ihre Python-Skripte.
- Initialisierung des ChunkersChunker: Wählen Sie den für Ihre Bedürfnisse geeigneten Chunker aus und initialisieren Sie ihn.
- gestückelter TextChunking: Zerlegen des Textes mit dem initialisierten Chunker.
- ErgebnisIterieren durch die Chunking-Ergebnisse für die weitere Verarbeitung oder Analyse.