Chonkie: una biblioteca ligera de fragmentación de texto RAG
Últimos recursos sobre IAActualizado hace 7 meses Círculo de intercambio de inteligencia artificial 12.7K 00
Introducción general
Chonkie es una biblioteca de fragmentación de texto RAG (Retrieval-Augmented Generation) ligera y eficiente, diseñada para ayudar a los desarrolladores a fragmentar texto de forma rápida y sencilla. La biblioteca admite diversos métodos de fragmentación, como la fragmentación basada en tokens, palabras, frases y similitud semántica, y es adecuada para una amplia gama de tareas de procesamiento de texto y de lenguaje natural. La instalación por defecto sólo requiere 21 MB (otros productos similares requieren entre 80 y 171 MB). Soporta los principales troceadores.
Lista de funciones
- TokenChunkerDivide el texto en bloques de marcador de tamaño fijo.
- WordChunker: Divide el texto en trozos basándose en las palabras.
- SentenceChunkerDividir el texto en trozos a partir de frases.
- SemanticChunker: Divide el texto en trozos basándose en la similitud semántica.
- SDPMChunkerSegmentación de texto mediante un enfoque de doble fusión semántica.
Utilizar la ayuda
montaje
Para instalar Chonkie, basta con ejecutar el siguiente comando:
pip install chonkie
Chonkie sigue el principio de instalación mínima por defecto y recomienda instalar chunkers específicos según sea necesario, o todos ellos si no quieres tener en cuenta las dependencias (no recomendado).
pip install chonkie[all]
utilizar
Aquí tienes un ejemplo básico que te ayudará a empezar rápidamente:
- Primero importa el chunker deseado:
from chonkie import TokenChunker
- Importe su biblioteca tokenizadora favorita (AutoTokenizers, TikToken y AutoTikTokenizer son compatibles):
from tokenizers import Tokenizer tokenizer = Tokenizer.from_pretrained("gpt2")
- Inicializa el chunker:
chunker = TokenChunker(tokenizer)
- Desmenuzar el texto:
chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")
- Acceda a los resultados de la fragmentación:
for chunk in chunks: print(f"Chunk: {chunk.text}") print(f"Tokens: {chunk.token_count}")
Métodos de apoyo
Chonkie ofrece una amplia gama de chunkers para ayudarle a crear y distribuir eficazmente sus propios chunks para el RAG La aplicación divide el texto. A continuación se ofrece un breve resumen de los chunkers disponibles:
- TokenChunkerDivide el texto en bloques de marcador de tamaño fijo.
- WordChunker: Divide el texto en trozos basándose en las palabras.
- SentenceChunkerDividir el texto en trozos a partir de frases.
- SemanticChunker: Divide el texto en trozos basándose en la similitud semántica.
- SDPMChunkerSegmentación de texto mediante un enfoque de doble fusión semántica.
evaluación comparativa
Chonkie obtiene buenos resultados en varias pruebas comparativas:
- tallas: La instalación por defecto sólo ocupa 9,7 MB (frente a los 80-171 MB de otras versiones), lo que sigue siendo más ligero que la competencia, incluso cuando se incluye la fragmentación semántica.
- tempoEl tag chunking es 33 veces más rápido que la alternativa más lenta, el sentence chunking es casi 2 veces más rápido que la competencia y el semantic chunking es 2,5 veces más rápido que otros métodos.
Procedimiento de funcionamiento detallado
- instaladorInstala Chonkie y las librerías de etiquetado necesarias mediante pip.
- importar bibliotecaImporte Chonkie y la biblioteca de etiquetadores en sus scripts de Python.
- Inicialización del fragmentador: Selecciona e inicializa el chunker adecuado a tus necesidades.
- texto fragmentadoTrocea el texto utilizando el troceador inicializado.
- resultadoIterar a través de los resultados del chunking para su posterior procesamiento o análisis.
© declaración de copyright
Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.
Puestos relacionados
Sin comentarios...