AI Engineering Academy: 2.14 RAPTOR: procesamiento recursivo de resúmenes para mejorar la generación de recuperaciones estructuradas en árbol

introducción

RAPTOR (Recursive Abstract Processing for Tree-Structured Retrieval Enhanced Generation) es un método avanzado de Generación Mejorada de Recuperación (RAG). Mejora el tradicional introduciendo técnicas de estructuración y resumen jerárquico de documentos para RAG Proceso.

https://github.com/adithya-s-k/AI-Engineering.academy/tree/main/RAG/09_RAPTOR

 

locomotora

Los sistemas tradicionales de RAG suelen tener dificultades con las grandes colecciones de documentos y las consultas complejas. raptor aborda estos retos creando una representación jerárquica del corpus documental, lo que permite una recuperación más detallada y eficiente.

Detalles metodológicos

AI工程学院:2.14RAPTOR: 树结构化检索增强生成的递归摘要处理

 

Preprocesamiento de documentos y creación de almacenes vectoriales

  1. Divida los documentos en partes manejables.
  2. Incrusta cada pepita utilizando un modelo de incrustación adecuado.
  3. Agrupación de vectores de incrustación para agrupar contenidos similares.
  4. Los resultados de la agrupación se resumen para crear una representación abstracta de alto nivel.
  5. Con estos resúmenes y los bloques de texto originales se construyó una estructura arbórea jerárquica (árbol RAPTOR).

Flujo de trabajo de generación de mejoras de recuperación

  1. Las consultas de los usuarios se incrustan utilizando el mismo modelo de incrustación.
  2. Recorre el árbol RAPTOR para encontrar nodos relacionados (resúmenes o bloques de documentos).
  3. Fusiona los resultados de la búsqueda con la consulta original del usuario para formar un contexto.
  4. Este contexto se pasa al Modelo de Lenguaje Grande (LLM) para generar la respuesta final.

Características principales de RAPTOR

  • Representación jerárquica del documento: Crea una estructura de árbol del contenido del documento.
  • Resumen multinivel: la información resumida se proporciona a distintos niveles.
  • Recuperación eficiente: recuperación de información más rápida y pertinente mediante el recorrido de árboles.
  • Escalabilidad: mejor manejo de grandes colecciones de documentos en comparación con el almacenamiento vectorial plano.

Ventajas de este método

  1. Mayor relevancia contextual: la estructura jerárquica ajusta mejor las consultas a los contenidos pertinentes.
  2. La búsqueda en el bosque es más eficaz: el método de recorrido en árbol es más eficaz que la búsqueda completa.
  3. Gestión de consultas complejas: la estructura multinivel ayuda a gestionar las consultas de información en varias secciones del documento.
  4. Maneja grandes conjuntos de documentos: mejor escalabilidad que los métodos tradicionales.

llegar a un veredicto

RAPTOR mejora la calidad y eficacia del proceso de RAG introduciendo mecanismos de representación y recuperación de documentos resumidos y estructurados en forma de árbol. Se espera que este enfoque mejore significativamente la precisión y la relevancia contextual de la recuperación de información, especialmente en el caso de colecciones de documentos complejos a gran escala.

© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...