Извлечение: Что такое извлечение и объясняет общие техники "извлечения", используемые в RAG
основная концепция
В области информационных технологий.Извлечение означает, что из большого набора данных (обычно это документ, веб-страница, изображение, аудио, видео или другая форма информации) на основе запроса пользователя или его потребностиПроцесс эффективного поиска и извлечения необходимой информации. Его основная цель - найтиИнформация, наиболее соответствующая потребностям пользователейи представить его пользователю.
- Запрос: поисковый термин или условие, введенное пользователем.
- ИндексСтруктура данных, которая осуществляет предварительную обработку данных для повышения эффективности поиска.
- Актуальность: Степень соответствия полученных результатов запросу.
Схемы RAG, основанные на построении больших баз знаний моделей, часто не используют какую-то одну технику "поиска", например, широко распространенную: гибридный поиск с разреженностью + плотностью. Выбор техники поиска должен быть тщательно адаптирован к извлекаемому контенту, что требует значительной отладки.

Основная модель поиска
Модели поиска в основном классифицируются следующим образом: булевые модели, модели векторного пространства, вероятностные модели, нейросетевые модели, графовые модели (например, Knowledge Graph) и языковые модели (например, GPT3).
Основные модели поиска можно "просто" разделить на две категории, основное различие между которыми заключается в том, как они понимают и сопоставляют текст:
1. Лексическое/ключевое сопоставление.
Этот тип модели фокусируется на запросах и документах вБуквально подходящие словано без глубокого понимания смысла, стоящего за этими словами.
Основная идея. Подсчитайте количество вхождений слов в документы и запросы и сопоставьте их.
Основные модели.
Булевая модель. Простое соответствие на основе наличия или отсутствия ключевого слова (AND, OR, NOT).
Векторная пространственная модель (VSM). Документы и запросы представляются в виде векторов весов слов, которые сопоставляются по векторному сходству (например, косинусному сходству). Распространенным методом взвешивания является TF-IDF.
BM25. Улучшенная модель, основанная на вероятностной статистике и учитывающая такие факторы, как длина документа, является краеугольным камнем многих поисковых систем.
Плюсы. Простой, эффективный и легко реализуемый.
Недостатки. Неспособность понять семантические связи слов и подверженность таким проблемам, как синонимы и полисемия.
2. Семантическое/ смысловое сопоставление.
Модели встраивания, основанные на семантике, не только поддерживают различные длины и размеры встраиваемого текста, но и по-разному понимают "предложения", что является приоритетом при выборе моделей встраивания (хотя большинство из них используют более общие модели).
Например, слово "яблоко" семантически предпочтительнее "фрукта" для одних моделей и "мобильного телефона" для других.
Этот тип модели пытается понять запрос и документ.глубокая семантическая информацияА не просто поверхностное сопоставление слов.
Основная идея. Отображение текста в семантическое пространство и сопоставление по семантическому сходству.
Основные модели.
Тематические модели. Поиск в документах потенциальных тем, извлекаемых по сходству тем (например, LDA).
Встраивание моделей. Отображение слов, предложений или документов в низкоразмерное плотное векторное пространство позволяет получить семантическую информацию.
Вкрапления слов. Примеры: Word2Vec, GloVe, FastText.
Вкрапления предложений. Например, "Приговор-БЕРТ". Универсальный Кодировщик предложений. Встраивания OpenAI.
Плотные модели поиска. Запросы и документы кодируются в плотные высокоразмерные векторы с помощью моделей глубокого обучения (обычно Transformer) и извлекаются по сходству векторов. В качестве примеров можно привести DPR, Contriever и Встраивания OpenAI Построенная поисковая система.
Модели нейронного взаимодействия. Более тонкое моделирование взаимодействия между запросами и документами, например, ColBERT, RocketQA.
Графовые нейросетевые модели. Документы и запросы строятся в виде графов и извлекаются с использованием структуры графов.
Плюсы. Способность лучше понимать смысл текста, справляться с семантическими корреляциями и точнее находить нужную информацию.
Недостатки. Обычно более сложны и требуют больших вычислительных затрат.
Ключевое отличие:
Модели лексического соответствия выглядят "буквальными"При этом особое внимание уделяется встречам ключевых слов.
Модели семантического сопоставления рассматривают "значение"Сосредоточьтесь на внутренних смыслах и связях текста.
Сводная таблица:
категоризация | основная идея | Основные модели | RAG Прикладная направленность в |
Подбор слов на основе словарного запаса | Буквально подходящие слова | Булевые модели, векторные пространственные модели (VSM), BM25 | Ранние или простые сценарии |
Сопоставление на основе семантики | Понимание глубокой семантической информации | Топовые модели, модели встраивания слов, модели встраивания предложений (с Встраивания OpenAI), модели плотного поиска (в том числе основанные на Встраивания OpenAI системы), модели взаимодействия нейронных сетей, модели графовых нейронных сетей | Основной выбор, с особым вниманием к вкраплениям предложений и интенсивному поиску |
Приложения в RAG
RAG (Поиск-Augmented Generation)Это система искусственного интеллекта, которая сочетает в себе методы поиска и генерации, и ее основное назначение - повышение точности и контекстной релевантности генерируемого контента.
- этап извлечения: Определение документов или отрывков из большой базы знаний, которые соответствуют введенным пользователем данным.
- этап формирования: Используйте полученную информацию в качестве контекста для создания ответов или содержания.
В RAG модель поиска отвечает за предоставление высококачественных источников информации, а генеративная модель - за генерацию ответов на естественном языке на основе этой информации. Поскольку RAG может получать актуальную информацию из внешних источников знаний, он особенно хорошо справляется с ответами на наукоемкие вопросы.
Прикладная направленность в RAG:
В книге RAG (Retrieval Augmentation Generation).Часто предпочтение отдается моделям семантического соответствияпотому что они могут более точно извлекать контекстную информацию, относящуюся к запросу пользователя, тем самым помогая генеративной модели выдавать более точные и последовательные ответы. В частности.Модели встраивания предложений и модели плотного поискаНапример, на основе Встраивания OpenAI широко используется в системах RAG благодаря отличным возможностям семантического представления и эффективности поиска.
дело (право)
1. применение лексического поиска (Lexical Retrieval)
Основные идеи: Поисковая система в значительной степени опирается на запросы и документы вБуквальный подбор ключевых слов.
Пример 1: Поиск определенной команды в технической документации
Сцена: Вы используете программное обеспечение и хотите узнать, как выполнить операцию копирования файла, и вам нужно найти соответствующую команду.
Механизм поиска: Система RAG использует словарную модель (например, BM25) для поиска в справочных файлах программ фрагментов, содержащих ключевые слова "копировать файл", "команда копирования файла" или "копировать файл".
Пример результатов поиска: Система может найти раздел документа под названием "Команды управления файлами", который содержит раздел "Использование cp Ниже приведено описание команды "Команда копирования файла".
Как помочь генерировать: Конкретные инструкции для найденных команд сдерживания передаются в модель генерации, которая может генерировать более точные действия, например, "Вы можете использовать cp чтобы скопировать файл. Например.cp source.txt destination.txt скопирует файл source.txt в файл destination.txt".
Ключевые моменты: Поиск основан на точном совпадении ключевых слов. Если вы используете другую фразу, например "перемещение копий документов", вы можете не получить те же результаты.
Пример 2: Поиск конкретной модели в каталоге
Сцена: Вы хотите приобрести конкретную модель принтера, например, "Модель XYZ-123".
Механизм поиска: Система RAG ищет в базе данных каталога записи, содержащие точное название модели "XYZ-123".
Пример результатов поиска: Система найдет записи о товарах, содержащие название, подробные характеристики, цену и другую информацию о "Принтер XYZ-123".
Как помочь генерировать: Полученная информация о продукте может быть использована непосредственно для создания представлений, запросов о цене, ссылок на покупку и т.д. о модели принтера.
Ключевые моменты: Полагается на точное совпадение моделей продуктов. Если пользователь вводит расплывчатое описание, например "высокопроизводительный принтер", поиск по термину может не сработать.
2. Приложения для семантического поиска
Основные идеи: Поисковая система понимает запрос и документ.глубокая семантическая информацияВы сможете найти релевантный контент, даже если у вас нет одинаковых ключевых слов.
Пример 3: Поиск информации о симптомах заболевания в медицинской литературе
Сцена: Вы хотите узнать, какие неприятные ощущения возникают при повышенном кровяном давлении?
Механизм поиска: Система RAG использует семантическую модель (например, плотный поиск на основе Sentence-BERT или OpenAI Embeddings) для векторизации запроса и медицинской литературы, а затем находит в семантическом пространстве наиболее близкие к вектору запроса отрывки. Даже если документы не содержат абсолютно одинаковых формулировок, например, вместо "гипертония" используется "повышенное артериальное давление" или вместо "недомогание" - конкретные описания симптомов, они все равно могут быть найдены. поиск.
Пример результатов поиска: Система может найти отрывки, содержащие следующий текст: "Люди с высоким кровяным давлением часто отмечают такие симптомы, как головная боль, головокружение и чувство сдавленности в груди. Длительное неконтролируемое высокое кровяное давление может привести к учащенному сердцебиению и затрудненному дыханию."
Как помочь генерировать: Полученные описания симптомов гипертонии передаются в генеративную модель, которая может выдать более естественный и полный ответ: "Гипертония может вызывать широкий спектр неприятных ощущений, обычно включающих головную боль, головокружение и чувство сдавленности в груди. Тяжелая или длительная гипертония может также вызывать учащенное сердцебиение и затрудненное дыхание".
Ключевые моменты: Уметь понимать синонимы ("повышенное кровяное давление" по сравнению с "высоким кровяным давлением"), близкие по значению выражения ("физический дискомфорт" по сравнению с "головной болью, головокружением ") и смежные понятия, обеспечивающие более богатый контекст.
Пример 4: Поиск схожих стилей текста при оказании помощи в написании творческих работ
Сцена: Вы работаете над научно-фантастическим романом и хотите найти несколько отрывков в похожем литературном стиле, чтобы использовать их для вдохновения. Вы набираете: "Опишите процветающее видение города будущего, полного высотных зданий и интенсивного движения".
Механизм поиска: Система RAG использует семантическую модель для поиска в большой библиотеке научно-фантастических текстов, отыскивая отрывки, которые семантически наиболее близки к вашему описанию, даже если в них не используются такие ключевые слова, как "город будущего" или "бум".
Пример результатов поиска: Система может найти такие отрывки, как "Стальные бегемоты пронзали облака, а стеклянные навесные стены отражали разноцветный свет. Летающие машины, как челноки, курсировали между зданиями, на земле суетились толпы людей, и гул энергии наполнял город, который никогда не спит".
Как помочь генерировать: Найденные отрывки с похожими настроениями и описаниями можно использовать в качестве эталона для генеративной модели, помогая ей создавать текст в соответствии с желаемым стилем.
Ключевые моменты: Способность понять скрытый смысл, эмоциональную окраску и стиль текста выходит за рамки простого подбора ключевых слов и в большей степени ориентирована на семантическое сходство.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...