Извлечение: Что такое извлечение и объясняет общие техники "извлечения", используемые в RAG

основная концепция

В области информационных технологий.Извлечение означает, что из большого набора данных (обычно это документ, веб-страница, изображение, аудио, видео или другая форма информации) на основе запроса пользователя или его потребностиПроцесс эффективного поиска и извлечения необходимой информации. Его основная цель - найтиИнформация, наиболее соответствующая потребностям пользователейи представить его пользователю.

  • Запрос: поисковый термин или условие, введенное пользователем.
  • ИндексСтруктура данных, которая осуществляет предварительную обработку данных для повышения эффективности поиска.
  • Актуальность: Степень соответствия полученных результатов запросу.

Схемы RAG, основанные на построении больших баз знаний моделей, часто не используют какую-то одну технику "поиска", например, широко распространенную: гибридный поиск с разреженностью + плотностью. Выбор техники поиска должен быть тщательно адаптирован к извлекаемому контенту, что требует значительной отладки.

Retrieval:什么是Retrieval?解释RAG中常见的

 

Основная модель поиска

Модели поиска в основном классифицируются следующим образом: булевые модели, модели векторного пространства, вероятностные модели, нейросетевые модели, графовые модели (например, Knowledge Graph) и языковые модели (например, GPT3).

Основные модели поиска можно "просто" разделить на две категории, основное различие между которыми заключается в том, как они понимают и сопоставляют текст:

1. Лексическое/ключевое сопоставление.

Этот тип модели фокусируется на запросах и документах вБуквально подходящие словано без глубокого понимания смысла, стоящего за этими словами.

  • Основная идея. Подсчитайте количество вхождений слов в документы и запросы и сопоставьте их.

  • Основные модели.

    • Булевая модель. Простое соответствие на основе наличия или отсутствия ключевого слова (AND, OR, NOT).

    • Векторная пространственная модель (VSM). Документы и запросы представляются в виде векторов весов слов, которые сопоставляются по векторному сходству (например, косинусному сходству). Распространенным методом взвешивания является TF-IDF.

    • BM25. Улучшенная модель, основанная на вероятностной статистике и учитывающая такие факторы, как длина документа, является краеугольным камнем многих поисковых систем.

Плюсы. Простой, эффективный и легко реализуемый.
Недостатки. Неспособность понять семантические связи слов и подверженность таким проблемам, как синонимы и полисемия.

2. Семантическое/ смысловое сопоставление.

Модели встраивания, основанные на семантике, не только поддерживают различные длины и размеры встраиваемого текста, но и по-разному понимают "предложения", что является приоритетом при выборе моделей встраивания (хотя большинство из них используют более общие модели).

Например, слово "яблоко" семантически предпочтительнее "фрукта" для одних моделей и "мобильного телефона" для других.

Этот тип модели пытается понять запрос и документ.глубокая семантическая информацияА не просто поверхностное сопоставление слов.

  • Основная идея. Отображение текста в семантическое пространство и сопоставление по семантическому сходству.

  • Основные модели.

    • Тематические модели. Поиск в документах потенциальных тем, извлекаемых по сходству тем (например, LDA).

    • Встраивание моделей. Отображение слов, предложений или документов в низкоразмерное плотное векторное пространство позволяет получить семантическую информацию.

      • Вкрапления слов. Примеры: Word2Vec, GloVe, FastText.

      • Вкрапления предложений. Например, "Приговор-БЕРТ". Универсальный Кодировщик предложений. Встраивания OpenAI.

    • Плотные модели поиска. Запросы и документы кодируются в плотные высокоразмерные векторы с помощью моделей глубокого обучения (обычно Transformer) и извлекаются по сходству векторов. В качестве примеров можно привести DPR, Contriever и Встраивания OpenAI Построенная поисковая система.

    • Модели нейронного взаимодействия. Более тонкое моделирование взаимодействия между запросами и документами, например, ColBERT, RocketQA.

    • Графовые нейросетевые модели. Документы и запросы строятся в виде графов и извлекаются с использованием структуры графов.

Плюсы. Способность лучше понимать смысл текста, справляться с семантическими корреляциями и точнее находить нужную информацию.
Недостатки. Обычно более сложны и требуют больших вычислительных затрат.

Ключевое отличие:

  • Модели лексического соответствия выглядят "буквальными"При этом особое внимание уделяется встречам ключевых слов.

  • Модели семантического сопоставления рассматривают "значение"Сосредоточьтесь на внутренних смыслах и связях текста.

Сводная таблица:

категоризацияосновная идеяОсновные моделиRAG Прикладная направленность в
Подбор слов на основе словарного запасаБуквально подходящие словаБулевые модели, векторные пространственные модели (VSM), BM25Ранние или простые сценарии
Сопоставление на основе семантикиПонимание глубокой семантической информацииТоповые модели, модели встраивания слов, модели встраивания предложений (с Встраивания OpenAI), модели плотного поиска (в том числе основанные на Встраивания OpenAI системы), модели взаимодействия нейронных сетей, модели графовых нейронных сетейОсновной выбор, с особым вниманием к вкраплениям предложений и интенсивному поиску

 

Приложения в RAG

RAG (Поиск-Augmented Generation)Это система искусственного интеллекта, которая сочетает в себе методы поиска и генерации, и ее основное назначение - повышение точности и контекстной релевантности генерируемого контента.

  • этап извлечения: Определение документов или отрывков из большой базы знаний, которые соответствуют введенным пользователем данным.
  • этап формирования: Используйте полученную информацию в качестве контекста для создания ответов или содержания.

В RAG модель поиска отвечает за предоставление высококачественных источников информации, а генеративная модель - за генерацию ответов на естественном языке на основе этой информации. Поскольку RAG может получать актуальную информацию из внешних источников знаний, он особенно хорошо справляется с ответами на наукоемкие вопросы.

 

Прикладная направленность в RAG:

В книге RAG (Retrieval Augmentation Generation).Часто предпочтение отдается моделям семантического соответствияпотому что они могут более точно извлекать контекстную информацию, относящуюся к запросу пользователя, тем самым помогая генеративной модели выдавать более точные и последовательные ответы. В частности.Модели встраивания предложений и модели плотного поискаНапример, на основе Встраивания OpenAI широко используется в системах RAG благодаря отличным возможностям семантического представления и эффективности поиска.

 

дело (право)

1. применение лексического поиска (Lexical Retrieval)

  • Основные идеи: Поисковая система в значительной степени опирается на запросы и документы вБуквальный подбор ключевых слов.

  • Пример 1: Поиск определенной команды в технической документации

    • Сцена: Вы используете программное обеспечение и хотите узнать, как выполнить операцию копирования файла, и вам нужно найти соответствующую команду.

    • Механизм поиска: Система RAG использует словарную модель (например, BM25) для поиска в справочных файлах программ фрагментов, содержащих ключевые слова "копировать файл", "команда копирования файла" или "копировать файл".

    • Пример результатов поиска: Система может найти раздел документа под названием "Команды управления файлами", который содержит раздел "Использование cp Ниже приведено описание команды "Команда копирования файла".

    • Как помочь генерировать: Конкретные инструкции для найденных команд сдерживания передаются в модель генерации, которая может генерировать более точные действия, например, "Вы можете использовать cp чтобы скопировать файл. Например.cp source.txt destination.txt скопирует файл source.txt в файл destination.txt".

    • Ключевые моменты: Поиск основан на точном совпадении ключевых слов. Если вы используете другую фразу, например "перемещение копий документов", вы можете не получить те же результаты.

  • Пример 2: Поиск конкретной модели в каталоге

    • Сцена: Вы хотите приобрести конкретную модель принтера, например, "Модель XYZ-123".

    • Механизм поиска: Система RAG ищет в базе данных каталога записи, содержащие точное название модели "XYZ-123".

    • Пример результатов поиска: Система найдет записи о товарах, содержащие название, подробные характеристики, цену и другую информацию о "Принтер XYZ-123".

    • Как помочь генерировать: Полученная информация о продукте может быть использована непосредственно для создания представлений, запросов о цене, ссылок на покупку и т.д. о модели принтера.

    • Ключевые моменты: Полагается на точное совпадение моделей продуктов. Если пользователь вводит расплывчатое описание, например "высокопроизводительный принтер", поиск по термину может не сработать.

2. Приложения для семантического поиска

  • Основные идеи: Поисковая система понимает запрос и документ.глубокая семантическая информацияВы сможете найти релевантный контент, даже если у вас нет одинаковых ключевых слов.

  • Пример 3: Поиск информации о симптомах заболевания в медицинской литературе

    • Сцена: Вы хотите узнать, какие неприятные ощущения возникают при повышенном кровяном давлении?

    • Механизм поиска: Система RAG использует семантическую модель (например, плотный поиск на основе Sentence-BERT или OpenAI Embeddings) для векторизации запроса и медицинской литературы, а затем находит в семантическом пространстве наиболее близкие к вектору запроса отрывки. Даже если документы не содержат абсолютно одинаковых формулировок, например, вместо "гипертония" используется "повышенное артериальное давление" или вместо "недомогание" - конкретные описания симптомов, они все равно могут быть найдены. поиск.

    • Пример результатов поиска: Система может найти отрывки, содержащие следующий текст: "Люди с высоким кровяным давлением часто отмечают такие симптомы, как головная боль, головокружение и чувство сдавленности в груди. Длительное неконтролируемое высокое кровяное давление может привести к учащенному сердцебиению и затрудненному дыханию."

    • Как помочь генерировать: Полученные описания симптомов гипертонии передаются в генеративную модель, которая может выдать более естественный и полный ответ: "Гипертония может вызывать широкий спектр неприятных ощущений, обычно включающих головную боль, головокружение и чувство сдавленности в груди. Тяжелая или длительная гипертония может также вызывать учащенное сердцебиение и затрудненное дыхание".

    • Ключевые моменты: Уметь понимать синонимы ("повышенное кровяное давление" по сравнению с "высоким кровяным давлением"), близкие по значению выражения ("физический дискомфорт" по сравнению с "головной болью, головокружением ") и смежные понятия, обеспечивающие более богатый контекст.

  • Пример 4: Поиск схожих стилей текста при оказании помощи в написании творческих работ

    • Сцена: Вы работаете над научно-фантастическим романом и хотите найти несколько отрывков в похожем литературном стиле, чтобы использовать их для вдохновения. Вы набираете: "Опишите процветающее видение города будущего, полного высотных зданий и интенсивного движения".

    • Механизм поиска: Система RAG использует семантическую модель для поиска в большой библиотеке научно-фантастических текстов, отыскивая отрывки, которые семантически наиболее близки к вашему описанию, даже если в них не используются такие ключевые слова, как "город будущего" или "бум".

    • Пример результатов поиска: Система может найти такие отрывки, как "Стальные бегемоты пронзали облака, а стеклянные навесные стены отражали разноцветный свет. Летающие машины, как челноки, курсировали между зданиями, на земле суетились толпы людей, и гул энергии наполнял город, который никогда не спит".

    • Как помочь генерировать: Найденные отрывки с похожими настроениями и описаниями можно использовать в качестве эталона для генеративной модели, помогая ей создавать текст в соответствии с желаемым стилем.

    • Ключевые моменты: Способность понять скрытый смысл, эмоциональную окраску и стиль текста выходит за рамки простого подбора ключевых слов и в большей степени ориентирована на семантическое сходство.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...