Aprendizagem pessoal com IA
e orientação prática

Chonkie: uma biblioteca leve de fragmentação de texto RAG

Introdução geral

O Chonkie é uma biblioteca de fragmentação de texto RAG (Retrieval-Augmented Generation) leve e eficiente, criada para ajudar os desenvolvedores a fragmentar textos de forma rápida e fácil. A biblioteca oferece suporte a vários métodos de fragmentação, incluindo fragmentação baseada em tokens, palavras, frases e similaridade semântica, e é adequada para uma ampla gama de tarefas de processamento de texto e de linguagem natural. A instalação padrão requer apenas 21 MB (outros produtos similares requerem de 80 a 171 MB) Oferece suporte a todos os principais chunkers.

 

Lista de funções

  • TokenChunkerMarcador de tamanho fixo: divide o texto em blocos de marcadores de tamanho fixo.
  • Caça-palavrasDivisão do texto em partes com base em palavras: dividir o texto em partes com base em palavras.
  • SentenceChunkerDivisão do texto em partes com base em frases: Divida o texto em partes com base em frases.
  • SemanticChunkerDivisão do texto em partes com base na similaridade semântica.
  • SDPMChunkerSegmentação de texto usando uma abordagem de fusão dupla semântica.

 

Usando a Ajuda

montagem

Para instalar o Chonkie, basta executar o seguinte comando:

pip install chonkie

O Chonkie segue o princípio da instalação padrão mínima e recomenda a instalação de chunkers específicos conforme necessário, ou de todos eles se você não quiser considerar as dependências (não recomendado).

pip install chonkie[all]

fazer uso de

Aqui está um exemplo básico para ajudá-lo a começar rapidamente:

  1. Primeiro, importe o chunker desejado:
    from chonkie import TokenChunker
    
  2. Importe sua biblioteca de tokenizadores favorita (AutoTokenizers, TikToken e AutoTikTokenizer são compatíveis):
    from tokenizers import Tokenizer
    tokenizer = Tokenizer.from_pretrained("gpt2")
    
  3. Inicializar o chunker:
    chunker = TokenChunker(tokenizer)
    
  4. Separar o texto em pedaços:
    chunks = chunker("Woah! Chonkie, a biblioteca de chunking é tão legal! Adoro o hipopótamo minúsculo hehe.")
    
  5. Acesse os resultados do chunking:
    for chunk in chunks:
    print(f "Chunk: {chunk.text}")
    print(f"Tokens: {chunk.token_count}")
    

Métodos de suporte

O Chonkie oferece uma ampla variedade de chunkers para ajudá-lo a criar e distribuir com eficiência seus próprios chunks para o RAG O aplicativo divide o texto. Abaixo está uma breve visão geral dos chunkers disponíveis:

  • TokenChunkerMarcador de tamanho fixo: divide o texto em blocos de marcadores de tamanho fixo.
  • Caça-palavrasDivisão do texto em partes com base em palavras: dividir o texto em partes com base em palavras.
  • SentenceChunkerDivisão do texto em partes com base em frases: Divida o texto em partes com base em frases.
  • SemanticChunkerDivisão do texto em partes com base na similaridade semântica.
  • SDPMChunkerSegmentação de texto usando uma abordagem de fusão dupla semântica.

avaliação comparativa

O Chonkie tem um bom desempenho em vários benchmarks:

  • tamanhosA instalação padrão tem apenas 9,7 MB (em comparação com 80-171 MB de outras versões), o que ainda é mais leve do que a concorrência, mesmo quando a fragmentação semântica está incluída.
  • tempoO chunking de tags é 33 vezes mais rápido do que a alternativa mais lenta, o chunking de frases é quase duas vezes mais rápido do que a concorrência e o chunking semântico é 2,5 vezes mais rápido do que outros métodos.

Procedimento de operação detalhado

  1. instaladorInstalar o Chonkie e as bibliotecas de tagger necessárias via pip.
  2. biblioteca de importaçãoImportar o Chonkie e a biblioteca do tagger em seus scripts Python.
  3. Inicialização do chunkerSelecione e inicialize o chunker apropriado para suas necessidades.
  4. texto em blocosChunker: divide o texto usando o chunker inicializado.
  5. resultadoIteração dos resultados de chunking para processamento ou análise adicional.

Aprendizagem fácil com IA

O guia do leigo para começar a usar a IA

Ajuda você a aprender a utilizar as ferramentas de IA com baixo custo e a partir de uma base zero.A IA, assim como o software de escritório, é uma habilidade essencial para todos. Dominar a IA lhe dará uma vantagem em sua busca de emprego e metade do esforço em seu trabalho e estudos futuros.

Ver detalhes>
Não pode ser reproduzido sem permissão:Chefe do Círculo de Compartilhamento de IA " Chonkie: uma biblioteca leve de fragmentação de texto RAG

Chefe do Círculo de Compartilhamento de IA

O Chief AI Sharing Circle se concentra no aprendizado de IA, fornecendo conteúdo abrangente de aprendizado de IA, ferramentas de IA e orientação prática. Nosso objetivo é ajudar os usuários a dominar a tecnologia de IA e explorar juntos o potencial ilimitado da IA por meio de conteúdo de alta qualidade e compartilhamento de experiências práticas. Seja você um iniciante em IA ou um especialista sênior, este é o lugar ideal para adquirir conhecimento, aprimorar suas habilidades e realizar inovações.

Entre em contato conosco
pt_BRPortuguês do Brasil