Как настроить Mixtral-8x22B | Начало работы с основными советами по моделированию [перевод]

В продажу поступила модель Mixtral 8x22B - первый случай появления коммерчески доступной модели типа GPT-4 с открытым исходным кодом.

Однако это не оптимизированная для команд модель, а базовая.

Это означает, что мы должны использовать совершенно новые способы подачи сигнала.

Хотя это и сложнее, но не невозможно.

 

Краткое руководство по основным советам по моделированию:

 

Базовая модель управляется так же, как и ChatGPT Такие модели оптимизации команд сильно отличаются друг от друга. Думайте о них как о супер-инструментах автозаполнения. Они не предназначены для ведения диалога; скорее, они обучены дополнять любой текст, который вы предоставляете.

Эта разница делает подсказки более сложными - и открывает больше возможностей!

Например, базовая модель гораздо более выразительна, чем знакомый вам ChatGPT, и вы могли заметить, что ответы, сгенерированные ChatGPT, часто легко узнаваемы, потому что он был глубоко настроен. По сути, его стиль и поведение фиксированы. Очень трудно заставить его выйти за рамки модели, на которой он был обучен. Но в базовой модели таятся безграничные возможности, которые только и ждут, чтобы вы их открыли.

 

Как учитывать подсказки к базовой модели:

 

Когда вы даете подсказки базовой модели, вы должны думать не столько о том, как описать модели, что вы хотите, чтобы она сделала, сколько о том, как показать, что вы хотите, чтобы она сделала. Вам нужно действительно проникнуть в сознание модели и подумать о том, как она мыслит.

Базовая модель, по сути, является отражением обучающих данных. Если вы сможете понять это, то сможете творить чудеса.

Например, если вы хотите, чтобы модель написала новостную статью под названием "Влияние искусственного интеллекта на здравоохранение", вам следует подумать о том, где она могла встретить похожие статьи в стиле новостей в своих обучающих данных. Возможно, на новостном сайте, верно?

Исходя из этого, вы можете создать подсказку, использующую эту концепцию, включив в нее некоторые элементы, похожие на те, что могут содержать реальные страницы статей. Например:

Главная | Заголовки | Мнение

Artificial Intelligence Times

--

Влияние искусственного интеллекта на здравоохранение

На скриншоте ниже видно, что, поставив модель в ситуацию, аналогичную той, что она могла видеть в обучающих данных, она в итоге написала статью!

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

Но этот метод не идеален. Написание статьи не проходит гладко, и нет никакой гарантии, что статья будет создана.

Как же повысить надежность?

Добавляя примеры.

Базовая модель очень хорошо реагирует на короткие подсказки. Давайте добавим в подсказку несколько примеров. Чтобы сделать это быстро, я возьму несколько статей из Интернета и добавлю их в верхнюю часть подсказки (не вините меня - это всего лишь демонстрация, и она не пойдет в производство!) .

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

Как видите, благодаря этим нескольким примерам статья значительно улучшилась.

 

Давайте поговорим о парсинге:

 

Одна из главных проблем при работе с базовыми моделями - разбор их вывода. В случае с обучающими моделями вы можете просто указать им выводить данные в определенном формате, например, попросить их "отвечать в JSON", который очень легко разобрать. Но для базовых моделей это не так просто.

Вот техника, которую я часто использую, называемая "ведение модели".

Предположим, что вам нужно сформировать список названий статей, вы можете практически заставить модель отвечать в формате списка, добавив первые два символа массива в конце запроса после описания ваших потребностей. Вот пример:

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

 

Видите, как я добавил '["' в конец подсказки. Этот простой прием позволяет генерировать разборчивые данные, используя базовую модель.

 

Более продвинутые методы:

 

Приведенное выше введение - это лишь некоторые простые методы применения базовой модели. Существует множество более эффективных техник, которые помогут нам добиться лучших результатов.

Например, один из способов сделать это - заставить модель думать, что она является интерпретатором Python.

Это может показаться интуитивно понятным, но на практике это работает очень хорошо.

Например, вы можете попробовать написать подсказку, которая сокращает текст. См. подсказку на скриншоте - это практическое применение метода.

如何设置 Mixtral-8x22B | 基础模型提示入门 [译]

Как видите, мы создаем подсказку, которая имитирует интерпретатор Python, а модель имитирует вывод интерпретатора. Поскольку функция, которую мы вызываем, предназначена для сокращения текста, модель выдает короткую версию текста!

 

Как видите, использование базовой модели для подсказок значительно отличается от использования модели чата или гида. Надеюсь, это будет полезно всем, кто использует Mixtral 8x22B!

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...