Новый способ сделать ChatGPT непрерывным диалогом без потери памяти

Новости ИИОпубликовано 2 года назад Круг обмена ИИ
9K 00

Исследователи нашли краткое и эффективное решение неразрешимой проблемы в больших языковых моделях, таких как ChatGPT, которая в противном случае сильно повлияла бы на производительность модели.

 

让ChatGPT持续对话不丢失记忆的新方法

 

В ИИ-диалогах, включающих несколько раундов непрерывного общения, мощные крупномасштабные модели машинного изучения языка, на которых работают такие чат-боты, как ChatGPT, иногда неожиданно выходят из строя, что приводит к резкому снижению производительности бота.

Команда исследователей из Массачусетского технологического института и других институтов обнаружила неожиданную причину этой проблемы и придумала простое решение, которое позволяет чат-ботам продолжать общение без сбоев и замедлений.

Их подход адаптирует кэш ключей (эквивалент хранилища памяти для диалога), который находится в центре многих больших языковых моделей. В некоторых случаях, когда кэш должен хранить больше информации, чем его реальная емкость, происходит замена самых ранних данных, что может привести к сбою модели.

Сохраняя в памяти некоторые исходные данные, схема исследователей позволяет чат-ботам продолжать общение независимо от того, как долго длится беседа.

Этот подход, получивший название StreamingLLM, сохраняет высокую эффективность модели даже при продолжении диалога, превышающего четыре миллиона слов. По сравнению с другим подходом, который позволяет избежать сбоев системы путем постоянного повторного вычисления частей предыдущих диалогов, StreamingLLM работает более чем в 22 раза быстрее.

Это позволит чат-ботам вести длительные разговоры в течение дня без необходимости перезапуска, эффективно предоставляя ИИ-помощника для таких задач, как написание, редактирование и генерация кода.

"Сегодня, благодаря такому подходу, мы можем развертывать эти большие языковые модели на постоянной основе. Создав чатбота, с которым мы можем общаться в любое время и который может отвечать на основе содержания последних разговоров, мы сможем использовать эти чатботы во многих новых областях применения", - говорит Гуансюань Сяо, аспирант факультета электротехники и информатики (EECS) и ведущий автор статьи.

Среди соавторов Сяо - его наставник Сонг Хань, доцент EECS, член MIT-IBM Watson AI Lab и заслуженный ученый NVIDIA, а также Юаньдун Тянь, научный сотрудник Meta AI, Бейди Чен, доцент Университета Карнеги-Меллон, и Майк Льюис, научный сотрудник Meta AI и старший автор статьи. Это исследование будет представлено на Международной конференции по изучению репрезентаций.

 

 

Загадочный феномен

 

Крупномасштабные языковые модели кодируют данные, такие как словарный запас в запросе пользователя, в формы представления, называемые "лексемами". Многие модели используют так называемые "механизмы внимания", которые используют эти лексемы для создания нового текста.

В общем случае чатбот с искусственным интеллектом пишет новый контент на основе просмотренных текстов, поэтому он сохраняет недавние лексемы в банке памяти, называемом KV-кешем, чтобы использовать их в дальнейшем. Механизм внимания создает карту-сетку, содержащую все лексемы кэша, - "карту внимания", на которой отмечается сила корреляции между каждым словом и другими словами.

Понимание этих взаимосвязей помогает таким большим языковым моделям создавать человекоподобные тексты.

Однако, когда объем кэша становится огромным, карта внимания также становится огромной, что приводит к снижению скорости вычислений.

Более того, если количество лексем, необходимых для кодирования содержимого, превышает лимит кэша, производительность модели снижается. Например, широко используемая модель способна хранить 4 096 лексем, но академическая статья может содержать около 10 000 лексем.

Чтобы обойти эти проблемы, исследователи применили стратегию "скользящего кэша", удаляя самые старые лексемы, чтобы добавить новые. Однако после удаления первой лексемы производительность модели резко падает, что напрямую влияет на качество вновь созданного словаря.

В новой работе исследователи обнаружили, что при постоянном значении первого маркера в скользящем кэше модель сохраняет свою производительность даже при превышении размера кэша.

Но этот вывод может показаться нелогичным. Первое слово в романе редко напрямую связано с последним словом, так почему же первое слово имеет решающее значение для способности модели создавать новые слова?

В своей новой работе исследователи также раскрывают причины этого явления.

 

 

В центре внимания

 

Некоторые модели используют в механизме внимания операцию Softmax, которая присваивает каждому лексическому элементу балл, отражающий степень его связанности друг с другом. Операция Softmax требует, чтобы все баллы внимания в сумме равнялись 1. Поскольку большинство лексических элементов не связаны друг с другом, их баллы внимания очень малы. Модель присваивает все оставшиеся баллы внимания первому лексическому элементу.

Исследователи называют этот первый лексический элемент "фокусом внимания".

"Нам нужен фокус внимания, и модель выбирает первый лексический элемент в качестве этой точки внимания, потому что он виден всем остальным лексическим элементам. Мы обнаружили, что для поддержания динамики модели нам необходимо постоянно держать эту точку фокуса внимания в кэше". Хан выразился следующим образом.

При разработке StreamingLLM исследователи обнаружили, что размещение четырех лексических элементов с точкой фокусировки внимания в самом начале кэша приводит к оптимальной производительности.

Они также отмечают, что позиционное кодирование каждого лексического элемента должно оставаться неизменным при добавлении новых и удалении старых лексических элементов. Например, если пятый лексический элемент удаляется, шестой лексический элемент должен сохранить свою кодировку как шестой, даже если он станет пятым в кэше.

Сочетание этих двух идей позволяет StreamingLLM поддерживать связный диалог и превосходить популярные подходы, использующие методы повторных вычислений.

Например, при объеме кэша 256 слов методу, использующему технику пересчета, требуется 63 мс для декодирования нового слова, а StreamingLLM - всего 31 мс. Однако при увеличении объема кэша до 4096 слов методу пересчета требуется 1411 миллисекунд для декодирования новой лексемы, а StreamingLLM - всего 65 миллисекунд.

"В StreamingLLM используется инновационная техника объединения внимания, которая решает проблему производительности и стабильности памяти при обработке до 4 миллионов лексем текста". Йонг Янг, президентский молодой профессор компьютерных наук Национального университета Сингапура, отметил, что, хотя он и не принимал участия в работе. Возможности этой технологии не только впечатляют, но и несут в себе судьбоносный потенциал, позволяющий использовать StreamingLLM в широком спектре областей ИИ. Производительность и универсальность StreamingLLM предвещают, что она станет революционной технологией, которая будет определять, как мы используем ИИ для создания приложений". "

С этим мнением согласен и Тяньци Чен, доцент кафедры машинного обучения и информатики в Университете Карнеги-Меллон, который также не принимал участия в исследовании. Он сказал: "StreamingLLM позволяет нам плавно масштабировать длину диалогов для больших языковых моделей. Мы успешно использовали его для развертывания моделей Mistral на iPhone".

Исследовательская группа также изучила возможность применения объединения внимания в процессе обучения модели, включив несколько заполнителей перед всеми обучающими образцами.

Они обнаружили, что модели, обученные в сочетании с объединением внимания, способны поддерживать производительность, используя только один пул внимания в кэше, по сравнению с четырьмя, которые обычно требуются для стабилизации производительности для предварительно обученных моделей.

Однако, несмотря на то, что StreamingLLM позволяет модели вести непрерывный диалог, она все равно не может запомнить слова, которые не были помещены в кэш. В будущем исследователи планируют преодолеть это ограничение, изучив способы извлечения удаленных лексем или позволив модели запоминать предыдущие диалоги.

StreamingLLM был интегрирован в библиотеку оптимизации моделей большого языка NVIDIA [TensorRT-LLM]Средний.

Эта работа была частично поддержана Лабораторией искусственного интеллекта MIT-IBM Watson, Научным центром MIT и Национальным научным фондом.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...