Introdução geral
O Chonkie é uma biblioteca de fragmentação de texto RAG (Retrieval-Augmented Generation) leve e eficiente, criada para ajudar os desenvolvedores a fragmentar textos de forma rápida e fácil. A biblioteca oferece suporte a vários métodos de fragmentação, incluindo fragmentação baseada em tokens, palavras, frases e similaridade semântica, e é adequada para uma ampla gama de tarefas de processamento de texto e de linguagem natural. A instalação padrão requer apenas 21 MB (outros produtos similares requerem de 80 a 171 MB) Oferece suporte a todos os principais chunkers.
Lista de funções
- TokenChunkerMarcador de tamanho fixo: divide o texto em blocos de marcadores de tamanho fixo.
- Caça-palavrasDivisão do texto em partes com base em palavras: dividir o texto em partes com base em palavras.
- SentenceChunkerDivisão do texto em partes com base em frases: Divida o texto em partes com base em frases.
- SemanticChunkerDivisão do texto em partes com base na similaridade semântica.
- SDPMChunkerSegmentação de texto usando uma abordagem de fusão dupla semântica.
Usando a Ajuda
montagem
Para instalar o Chonkie, basta executar o seguinte comando:
pip install chonkie
O Chonkie segue o princípio da instalação padrão mínima e recomenda a instalação de chunkers específicos conforme necessário, ou de todos eles se você não quiser considerar as dependências (não recomendado).
pip install chonkie[all]
fazer uso de
Aqui está um exemplo básico para ajudá-lo a começar rapidamente:
- Primeiro, importe o chunker desejado:
from chonkie import TokenChunker
- Importe sua biblioteca de tokenizadores favorita (AutoTokenizers, TikToken e AutoTikTokenizer são compatíveis):
from tokenizers import Tokenizer tokenizer = Tokenizer.from_pretrained("gpt2")
- Inicializar o chunker:
chunker = TokenChunker(tokenizer)
- Separar o texto em pedaços:
chunks = chunker("Woah! Chonkie, a biblioteca de chunking é tão legal! Adoro o hipopótamo minúsculo hehe.")
- Acesse os resultados do chunking:
for chunk in chunks: print(f "Chunk: {chunk.text}") print(f"Tokens: {chunk.token_count}")
Métodos de suporte
O Chonkie oferece uma ampla variedade de chunkers para ajudá-lo a criar e distribuir com eficiência seus próprios chunks para o RAG O aplicativo divide o texto. Abaixo está uma breve visão geral dos chunkers disponíveis:
- TokenChunkerMarcador de tamanho fixo: divide o texto em blocos de marcadores de tamanho fixo.
- Caça-palavrasDivisão do texto em partes com base em palavras: dividir o texto em partes com base em palavras.
- SentenceChunkerDivisão do texto em partes com base em frases: Divida o texto em partes com base em frases.
- SemanticChunkerDivisão do texto em partes com base na similaridade semântica.
- SDPMChunkerSegmentação de texto usando uma abordagem de fusão dupla semântica.
avaliação comparativa
O Chonkie tem um bom desempenho em vários benchmarks:
- tamanhosA instalação padrão tem apenas 9,7 MB (em comparação com 80-171 MB de outras versões), o que ainda é mais leve do que a concorrência, mesmo quando a fragmentação semântica está incluída.
- tempoO chunking de tags é 33 vezes mais rápido do que a alternativa mais lenta, o chunking de frases é quase duas vezes mais rápido do que a concorrência e o chunking semântico é 2,5 vezes mais rápido do que outros métodos.
Procedimento de operação detalhado
- instaladorInstalar o Chonkie e as bibliotecas de tagger necessárias via pip.
- biblioteca de importaçãoImportar o Chonkie e a biblioteca do tagger em seus scripts Python.
- Inicialização do chunkerSelecione e inicialize o chunker apropriado para suas necessidades.
- texto em blocosChunker: divide o texto usando o chunker inicializado.
- resultadoIteração dos resultados de chunking para processamento ou análise adicional.