Самонаблюдение (Self-Attention) - что это такое, статья для чтения и понимания

Ответы ИИОпубликовано 3 месяца назад Круг обмена ИИ

24.4K 00

Определение самовнушения

Самостоятельное внимание - ключевой механизм глубокого обучения, изначально предложенный и широко используемый в архитектуре Transformer. Основная идея заключается в том, чтобы позволить модели сосредоточиться на всех позициях во входной последовательности одновременно и вычислить представление каждой позиции путем взвешенного агрегирования. Механизм самовнимания вычисляет веса внимания с помощью набора из трех векторов: запрос, ключ и значение. Для каждого элемента в последовательности модель вычисляет его оценку сходства со всеми элементами в последовательности, которая нормализуется с помощью softmax, чтобы стать весами внимания, и, наконец, генерирует новое представление путем взвешенного суммирования. Такая конструкция позволяет модели динамически улавливать зависимости внутри последовательности, независимо от расстояния между элементами. Преимущество самовнимания заключается в том, что оно может вычисляться параллельно, что позволяет избежать узкого места последовательной обработки в рекуррентных нейронных сетях и значительно улучшить способность моделировать зависимости на больших расстояниях. Этот механизм не только является основополагающим в области обработки естественного языка, но и постепенно распространяется на области компьютерного зрения, распознавания речи и мультимодального обучения, становясь одним из основных компонентов современных моделей глубокого обучения.

Основные принципы самовнушения

Роль запроса, векторов ключей и значений: Механизм самовнимания основан на вычислении векторов запроса, ключа и значения. Вектор запроса представляет текущую позицию, для которой необходимо вычислить внимание, вектор ключа используется для вычисления сходства с вектором запроса, а вектор значения содержит фактическую информацию для каждой позиции. Благодаря взаимодействию этих трех наборов векторов модель способна динамически фокусироваться на информации из разных мест.
Расчет баллов сходства: Модель получает оценку сходства путем вычисления точечного произведения вектора запроса и всех ключевых векторов. Результат точечного произведения масштабируется (обычно путем деления на квадратный корень из размерности ключевого вектора), чтобы избежать проблемы исчезающих градиентов, и затем нормируется к распределению вероятности с помощью функции softmax.
процедура взвешенной суммыНормализованные веса внимания используются для взвешенного суммирования векторов значений. Новые векторы, созданные на этом этапе, включают в себя релевантную информацию из всех позиций в последовательности, повышая богатство и контекстную осведомленность представления.
Преимущества распараллеленных вычислений: Механизм самовнушения позволяет одновременно обрабатывать все позиции в последовательности, не полагаясь на последовательные вычисления, как в рекуррентных нейронных сетях. Такое распараллеливание значительно повышает эффективность вычислений и особенно подходит для обработки длинных последовательностей.
Зависимый захват на дальних расстояниях: Поскольку самовнимание напрямую вычисляет связь между любыми двумя позициями, модель способна эффективно отражать дальние зависимости, избегая проблемы исчезающих или взрывающихся градиентов в традиционных рекуррентных нейронных сетях.

Механизм работы самовнушения

Преобразование входного представления: Входные последовательности линейно преобразуются для создания векторов запросов, ключей и значений. Сопоставление исходных входных данных с различными векторными пространствами позволяет модели обучаться более гибким представлениям.
Формирование аттенционного веса: Оценка сходства для каждой пары местоположений получается путем вычисления точечного произведения вектора запроса и вектора ключа. Оценка масштабируется и мягко максимизируется для формирования матрицы весов внимания.
вычисление вектора контекстаВесовые коэффициенты внимания перемножаются и суммируются с вектором значений для создания контекстно-зависимого представления каждого местоположения. Это представление включает в себя информацию из всех мест в последовательности, что расширяет выразительные возможности модели.
Расширение диапазона вниманияМногоголовое внимание повторяет процесс самовнимания несколько раз, при этом каждый набор внимания фокусируется на разных подпространствах репрезентации. Выходные данные нескольких головок объединяются и интегрируются с помощью линейных преобразований для дальнейшего расширения репрезентативных возможностей модели.
Выходные и остаточные соединенияВыходные сигналы самовнушения обычно объединяются с входными сигналами через остаточные связи, чтобы избежать проблемы исчезновения градиента. Для обеспечения стабильности обучения применяется нормализация слоев.

Области применения самовнимания

обработка естественного языка (NLP): Самопонимание является основой моделей-трансформеров, которые широко используются в таких задачах, как машинный перевод, генерация текста и анализ настроения. Например, модели семейства BERT и GPT опираются на самовнимание для сбора контекстной информации.
компьютерное зрениеСамовнимание применяется в задачах технического зрения, таких как классификация изображений, обнаружение целей и генерация изображений. Vision Transformer разделяет изображения на блоки и обрабатывает их как последовательности, улавливая глобальные зависимости с помощью самовнимания.
Распознавание и синтез речи: В обработке речи самовнимание используется для моделирования долгосрочных зависимостей аудиопоследовательностей и повышения производительности систем распознавания речи и преобразования текста в речь.
мультимодальное обучениеСамовнимание поддерживает совместную обработку текста, изображений и аудио, что находит применение в мультимодальных задачах, таких как визуальный опрос и создание описаний изображений.
биоинформатикаСамонаблюдение используется в таких областях, как анализ последовательностей ДНК и предсказание структуры белков, чтобы помочь уловить сложные закономерности в биологических данных.

Преимущества самовнушения

моделирование глобальных зависимостейСамонаблюдение может напрямую вычислять связь между любыми двумя позициями в последовательности, эффективно улавливая дальние зависимости и превосходя традиционные рекуррентные нейронные сети.
Высокая эффективность вычисленийРаспараллеливание вычислений делает самовнимание пригодным для аппаратного ускорения, особенно при работе с длинными последовательностями, что значительно ускоряет обучение и вывод.
Мощная гибкостьМеханизм самовнимания не зависит от порядка следования и может гибко применяться к входным и выходным последовательностям различной длины, что позволяет решать разнообразные задачи.
Лучшая интерпретируемость: Визуализация веса внимания дает представление о решениях модели, помогая понять, на какие части входной последовательности модель обращает внимание.
Отличная масштабируемость: Увеличивая количество головок внимания или слоев, можно легко масштабировать возможности модели для решения задач большего размера и сложности.

Ограничения самовнимания

риск переоценки: При большом количестве параметров модели механизм самовнушения склонен к перестройке и требует большого количества данных или методов регуляризации для ее снижения.
Информация о местоположении зависит от внешнего кодированияСамо внимание само по себе не содержит позиционной информации и должно полагаться на позиционное кодирование для введения порядка следования.
Интерпретация остается ограниченнойХотя весовые коэффициенты внимания можно визуализировать, фактический процесс принятия решений в сложной модели может быть трудно полностью расшифровать, что негативно сказывается на достоверности.
Проблемы адаптации доменовСамостоятельное внимание может оказаться неэффективным в областях с дефицитом данных и требует тонкой настройки под конкретные задачи.

Детали реализации самовнушения

Масштабирование точечного произведения внимания: Для вычисления самовнимания используется масштабированное точечное произведение внимания, которое вычисляет сходство через точечное произведение, масштабные коэффициенты для предотвращения исчезновения градиента и softmax для обеспечения нормализации веса.
Механизмы множественного вниманияМногоголовое внимание сопоставляет входные данные с несколькими подпространствами, каждая голова вычисляет внимание независимо, а конечные результаты объединяются линейными преобразованиями для увеличения мощности модели.
Разработка позиционного кодирования: Синусоидальное и косинусоидальное позиционное кодирование добавляет информацию о положении во входную последовательность, а выученное позиционное кодирование также может быть использовано для адаптации к конкретным требованиям задачи.
Остаточное соединение и нормализация слоевДля повышения стабильности обучения и скорости сходимости самоаттенсивные слои часто сочетаются с остаточным связыванием и нормализацией слоев.
Маскировочный механизм: В декодере маскировка самовнимания предотвращает доступ модели к будущей информации и гарантирует, что процесс авторегрессии является рациональным.

Изменения и улучшения в самовнушении

Эффективные механизмы вниманияВарианты, такие как Linformer, Reformer и т. д., снижают вычислительную сложность за счет аппроксимации с низким рангом или локально чувствительного хэширования, что делает самовнимание более применимым для длинных последовательностей.
низкая устойчивость вниманияРазреженное внимание ограничивает каждую позицию только некоторыми позициями, уменьшая объем вычислений при сохранении производительности модели.
код относительной позицииОтносительное позиционное кодирование вместо абсолютного позиционного кодирования для лучшего моделирования относительных расстояний между элементами и улучшения обобщения.
кросс-модальное внимание: Кросс-модальное внимание расширяет возможности самовнимания на мультимодальные данные, поддерживая интерактивное моделирование текста, изображений и аудио.
Динамическое вниманиеДинамическое внимание корректирует вычисления внимания в зависимости от содержания входных данных для улучшения адаптации и эффективности модели.

Тренировка и оптимизация самовнимания

Проектирование функции потерь:Самостоятельные модели часто используют потери кросс-энтропии для задач классификации или потери среднего квадрата ошибки для задач регрессии в сочетании с целями оптимизации, специфичными для каждой конкретной задачи.
Выбор оптимизатора:Оптимизатор Адама широко используется для самонастраивающегося обучения моделей, сочетая стратегии планирования скорости обучения, такие как разогрев и затухание, для улучшения сходимости.
Методы регуляризации:Dropout применяется к сетям с весовым коэффициентом внимания и фидфорвардным сетям, где затухание веса и обрезка градиента предотвращают перебор и нестабильность обучения.
Стратегии пакетного обучения:Тренировки в большом объеме в сочетании с методами накопления градиента для повышения эффективности использования оборудования и эффективности обучения.
Оценка и настройка:Для выбора лучшей версии модели используются метрики мониторинга валидационного набора, такие как точность или недоумение, стратегии ранней остановки и контрольные точки модели.

Будущее направление самовнушения

Повышение эффективности вычислений: Исследование более эффективных способов вычисления внимания, таких как линейное внимание или иерархическое внимание, для снижения потребления ресурсов.
Повышение интерпретируемостиРазработка новых методов визуализации механизмов внимания, более четкое объяснение модельных решений, а также удовлетворение этических и нормативных требований.
мультимодальная интеграция: Расширение самовнимания на более модальные данные, такие как видео, 3D-модели и т. д., для создания ИИ общего назначения.
Адаптивные механизмы: Разработка модели, которая динамически регулирует количество головок внимания и слоев для автоматической оптимизации структуры в зависимости от сложности задачи.
Этика и безопасность: Сосредоточение внимания на снижении предвзятости и защите конфиденциальности при моделировании самовнимания, чтобы технологические разработки отвечали интересам общества.