Chonkie : une bibliothèque légère de découpage de texte en RAG
Introduction générale
Chonkie est une bibliothèque de découpage de texte RAG (Retrieval-Augmented Generation) légère et efficace, conçue pour aider les développeurs à découper rapidement et facilement du texte. La bibliothèque prend en charge une variété de méthodes de découpage, y compris le découpage basé sur les jetons, les mots, les phrases et la similarité sémantique, et convient à un large éventail de tâches de traitement de texte et de traitement du langage naturel. L'installation par défaut ne nécessite que 21 Mo (d'autres produits similaires nécessitent de 80 à 171 Mo).
Liste des fonctions
- Jeton de poche: divise le texte en blocs de marqueurs de taille fixe.
- Chasseur de motsLes mots : diviser le texte en morceaux en fonction des mots.
- Chasseur de phrasesLes textes sont divisés en morceaux basés sur des phrases.
- SemanticChunker: Découper le texte en morceaux sur la base de la similarité sémantique.
- SDPMChunkerSegmentation de textes à l'aide d'une approche de double fusion sémantique.
Utiliser l'aide
montage
Pour installer Chonkie, il suffit d'exécuter la commande suivante :
pip install chonkie
Chonkie suit le principe de l'installation minimale par défaut et recommande d'installer des chunkers spécifiques selon les besoins, ou tous si vous ne voulez pas prendre en compte les dépendances (non recommandé).
pip install chonkie[all]
utiliser
Voici un exemple de base pour vous aider à démarrer rapidement :
- Importez d'abord le chunker souhaité :
from chonkie import TokenChunker
- Importez votre bibliothèque de tokenizers préférée (AutoTokenizers, TikToken et AutoTikTokenizer sont pris en charge) :
from tokenizers import Tokenizer tokenizer = Tokenizer.from_pretrained("gpt2")
- Initialiser le chunker :
chunker = TokenChunker(tokenizer)
- Découpage du texte :
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")
- Accéder aux résultats du découpage :
for chunk in chunks: print(f"Chunk: {chunk.text}") print(f"Tokens: {chunk.token_count}")
Méthodes de soutien
Chonkie offre une large gamme de chunkers pour vous aider à créer et à distribuer efficacement vos propres chunks pour le site web RAG L'application divise le texte. Vous trouverez ci-dessous une brève vue d'ensemble des outils de découpage disponibles :
- Jeton de poche: divise le texte en blocs de marqueurs de taille fixe.
- Chasseur de motsLes mots : diviser le texte en morceaux en fonction des mots.
- Chasseur de phrasesLes textes sont divisés en morceaux basés sur des phrases.
- SemanticChunker: Découper le texte en morceaux sur la base de la similarité sémantique.
- SDPMChunkerSegmentation de textes à l'aide d'une approche de double fusion sémantique.
l'étalonnage des performances
Chonkie obtient de bons résultats dans plusieurs tests de référence :
- taillesL'installation par défaut ne pèse que 9,7 Mo (contre 80 à 171 Mo pour les autres versions), ce qui est encore plus léger que la concurrence, même lorsque le découpage sémantique est inclus.
- tempoLe découpage par tags est 33 fois plus rapide que l'alternative la plus lente, le découpage par phrases est presque 2 fois plus rapide que la concurrence, et le découpage sémantique est 2,5 fois plus rapide que les autres méthodes.
Procédure d'utilisation détaillée
- installateurInstaller Chonkie et les bibliothèques de balisage nécessaires via pip.
- bibliothèque d'importationImportation de Chonkie et de la bibliothèque du tagger dans vos scripts Python.
- Initialisation du chunkerSélection et initialisation du chunker le plus approprié à vos besoins.
- texte fragmenté: Découper le texte en morceaux à l'aide de l'outil de découpage initialisé.
- résultatIterate through the chunking results for further processing or analysis (itérer à travers les résultats du regroupement pour un traitement ou une analyse plus poussés).
© déclaration de droits d'auteur
L'article est protégé par le droit d'auteur et ne doit pas être reproduit sans autorisation.
Articles connexes
Pas de commentaires...