Chonkie: una biblioteca ligera de fragmentación de texto RAG

Introducción general

Chonkie es una biblioteca de fragmentación de texto RAG (Retrieval-Augmented Generation) ligera y eficiente, diseñada para ayudar a los desarrolladores a fragmentar texto de forma rápida y sencilla. La biblioteca admite diversos métodos de fragmentación, como la fragmentación basada en tokens, palabras, frases y similitud semántica, y es adecuada para una amplia gama de tareas de procesamiento de texto y de lenguaje natural. La instalación por defecto sólo requiere 21 MB (otros productos similares requieren entre 80 y 171 MB). Soporta los principales troceadores.

 

Lista de funciones

  • TokenChunkerDivide el texto en bloques de marcador de tamaño fijo.
  • WordChunker: Divide el texto en trozos basándose en las palabras.
  • SentenceChunkerDividir el texto en trozos a partir de frases.
  • SemanticChunker: Divide el texto en trozos basándose en la similitud semántica.
  • SDPMChunkerSegmentación de texto mediante un enfoque de doble fusión semántica.

 

Utilizar la ayuda

montaje

Para instalar Chonkie, basta con ejecutar el siguiente comando:

pip install chonkie

Chonkie sigue el principio de instalación mínima por defecto y recomienda instalar chunkers específicos según sea necesario, o todos ellos si no quieres tener en cuenta las dependencias (no recomendado).

pip install chonkie[all]

utilizar

Aquí tienes un ejemplo básico que te ayudará a empezar rápidamente:

  1. Primero importa el chunker deseado:
    from chonkie import TokenChunker
    
  2. Importe su biblioteca tokenizadora favorita (AutoTokenizers, TikToken y AutoTikTokenizer son compatibles):
    from tokenizers import Tokenizer
    tokenizer = Tokenizer.from_pretrained("gpt2")
    
  3. Inicializa el chunker:
    chunker = TokenChunker(tokenizer)
    
  4. Desmenuzar el texto:
    chunks = chunker("Woah! Chonkie, the chunking library is so cool! I love the tiny hippo hehe.")
    
  5. Acceda a los resultados de la fragmentación:
    for chunk in chunks:
    print(f"Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")
    

Métodos de apoyo

Chonkie ofrece una amplia gama de chunkers para ayudarle a crear y distribuir eficazmente sus propios chunks para el RAG La aplicación divide el texto. A continuación se ofrece un breve resumen de los chunkers disponibles:

  • TokenChunkerDivide el texto en bloques de marcador de tamaño fijo.
  • WordChunker: Divide el texto en trozos basándose en las palabras.
  • SentenceChunkerDividir el texto en trozos a partir de frases.
  • SemanticChunker: Divide el texto en trozos basándose en la similitud semántica.
  • SDPMChunkerSegmentación de texto mediante un enfoque de doble fusión semántica.

evaluación comparativa

Chonkie obtiene buenos resultados en varias pruebas comparativas:

  • tallas: La instalación por defecto sólo ocupa 9,7 MB (frente a los 80-171 MB de otras versiones), lo que sigue siendo más ligero que la competencia, incluso cuando se incluye la fragmentación semántica.
  • tempoEl tag chunking es 33 veces más rápido que la alternativa más lenta, el sentence chunking es casi 2 veces más rápido que la competencia y el semantic chunking es 2,5 veces más rápido que otros métodos.

Procedimiento de funcionamiento detallado

  1. instaladorInstala Chonkie y las librerías de etiquetado necesarias mediante pip.
  2. importar bibliotecaImporte Chonkie y la biblioteca de etiquetadores en sus scripts de Python.
  3. Inicialización del fragmentador: Selecciona e inicializa el chunker adecuado a tus necesidades.
  4. texto fragmentadoTrocea el texto utilizando el troceador inicializado.
  5. resultadoIterar a través de los resultados del chunking para su posterior procesamiento o análisis.
© declaración de copyright

Puestos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...