Chonkie: una biblioteca ligera de fragmentación de texto RAG
Últimos recursos sobre IAActualizado hace 11 meses Círculo de intercambio de inteligencia artificial 49.6K 00
Introducción general
Chonkie es una biblioteca de fragmentación de texto RAG (Retrieval-Augmented Generation) ligera y eficiente, diseñada para ayudar a los desarrolladores a fragmentar texto de forma rápida y sencilla. La biblioteca admite diversos métodos de fragmentación, como la fragmentación basada en tokens, palabras, frases y similitud semántica, y es adecuada para una amplia gama de tareas de procesamiento de texto y de lenguaje natural. La instalación por defecto sólo requiere 21 MB (otros productos similares requieren entre 80 y 171 MB). Soporta los principales troceadores.
Lista de funciones
- TokenChunkerDivide el texto en bloques de marcador de tamaño fijo.
- WordChunker: Divide el texto en trozos basándose en las palabras.
- SentenceChunkerDividir el texto en trozos a partir de frases.
- SemanticChunker: Divide el texto en trozos basándose en la similitud semántica.
- SDPMChunkerSegmentación de texto mediante un enfoque de doble fusión semántica.
Utilizar la ayuda
montaje
Para instalar Chonkie, basta con ejecutar el siguiente comando:
pip install chonkie
Chonkie sigue el principio de instalación mínima por defecto y recomienda instalar chunkers específicos según sea necesario, o todos ellos si no quieres tener en cuenta las dependencias (no recomendado).
pip install chonkie[all]
utilizar
Aquí tienes un ejemplo básico que te ayudará a empezar rápidamente:
- Primero importa el chunker deseado:
from chonkie import TokenChunker - Importe su biblioteca tokenizadora favorita (AutoTokenizers, TikToken y AutoTikTokenizer son compatibles):
from tokenizers import Tokenizer tokenizer = Tokenizer.from_pretrained("gpt2") - Inicializa el chunker:
chunker = TokenChunker(tokenizer) - Desmenuzar el texto:
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.") - Acceda a los resultados de la fragmentación:
for chunk in chunks: print(f"Chunk: {chunk.text}") print(f"Tokens: {chunk.token_count}")
Métodos de apoyo
Chonkie ofrece una amplia gama de chunkers para ayudarle a crear y distribuir eficazmente sus propios chunks para el RAG La aplicación divide el texto. A continuación se ofrece un breve resumen de los chunkers disponibles:
- TokenChunkerDivide el texto en bloques de marcador de tamaño fijo.
- WordChunker: Divide el texto en trozos basándose en las palabras.
- SentenceChunkerDividir el texto en trozos a partir de frases.
- SemanticChunker: Divide el texto en trozos basándose en la similitud semántica.
- SDPMChunkerSegmentación de texto mediante un enfoque de doble fusión semántica.
evaluación comparativa
Chonkie obtiene buenos resultados en varias pruebas comparativas:
- tallas: La instalación por defecto sólo ocupa 9,7 MB (frente a los 80-171 MB de otras versiones), lo que sigue siendo más ligero que la competencia, incluso cuando se incluye la fragmentación semántica.
- tempoEl tag chunking es 33 veces más rápido que la alternativa más lenta, el sentence chunking es casi 2 veces más rápido que la competencia y el semantic chunking es 2,5 veces más rápido que otros métodos.
Procedimiento de funcionamiento detallado
- instaladorInstala Chonkie y las librerías de etiquetado necesarias mediante pip.
- importar bibliotecaImporte Chonkie y la biblioteca de etiquetadores en sus scripts de Python.
- Inicialización del fragmentador: Selecciona e inicializa el chunker adecuado a tus necesidades.
- texto fragmentadoTrocea el texto utilizando el troceador inicializado.
- resultadoIterar a través de los resultados del chunking para su posterior procesamiento o análisis.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Artículos relacionados
Sin comentarios...




