Антропологическое глубокое погружение Клода: выявление процессов принятия решений и рассуждений в больших языковых моделях

База знаний по искусственному интеллектуОпубликовано 10 месяцев назад Круг обмена ИИ

34.2K 00

напоминать Claude Такие большие языковые модели (Large Language Models, LLM) создаются не людьми, пишущими прямой программный код, а обучаются на огромных массивах данных. В процессе обучения модели сами обучаются стратегиям решения проблем. Эти стратегии скрыты в миллиардах вычислений, которые модель выполняет для генерации каждого слова, и внутренняя работа модели является "черным ящиком" для разработчиков. Это означает, что мы не знаем, как модель решает большинство своих задач.

понимания Claude То, как такие модели "думают", помогает нам лучше понять границы их возможностей и убедиться, что они ведут себя так, как ожидается. Например:

Claude Он свободно владеет десятками языков. На каком языке он думает в своем "уме"? Или существует универсальный "язык мысли"?
Claude Письмо создается слово за словом. Просто ли это предсказание следующего слова, или это планирование последующего содержания?
Claude Можно написать пошаговый процесс рассуждений. Является ли это объяснение истинным путем, который приводит к ответу, или это кажущийся разумным аргумент, иногда придуманный ради устоявшегося вывода?

Вдохновленные нейронаукой, исследователи пытаются создать "ИИ-микроскоп". Нейронаука давно изучает сложную внутреннюю работу мыслящих организмов, а этот ИИ-микроскоп призван выявить закономерности активности и информационных потоков внутри модели. Просто поговорить с моделью ИИ, чтобы понять ее внутренние механизмы, недостаточно - в конце концов, даже неврологи не знают всех деталей работы человеческого мозга. Поэтому необходимо заглянуть глубоко внутрь.

В ближайшем будущем.Anthropic Команда поделилась двумя новыми работами, демонстрирующими их прогресс в разработке этого "микроскопа" и применении его для наблюдения за зарождающейся "биологией ИИ". На сайте Первая газета В нем они расширяют Предыдущая работаПомимо нахождения интерпретируемых понятий (называемых "признаками") в модели, эти признаки соединяются в вычислительные "циклы", которые показывают часть пути преобразования от входного текста к выходному. В Второй документ В нем исследовательская группа изучила Claude 3.5 Haiku модели, был проведен углубленный анализ простых задач, представляющих десять ключевых моделей поведения, включая три вышеупомянутые проблемы. Такой подход позволяет выявить Claude Часть того, что происходит внутри, когда вы отвечаете на подсказку, является достаточным доказательством этого:

Claude Иногда он мыслит в концептуальном пространстве, которое разделяют разные языки, что позволяет предположить наличие у него универсального "языка мышления". Для этого исследователи переводили простые предложения на несколько языков и отслеживали Claude Об этом свидетельствуют совпадающие паттерны внутренней активности при обработке этих предложений.
Claude Она заранее планирует то, что собирается сказать, даже на много слов вперед, а затем организует язык для достижения этой цели. В случае написания стихов модель заранее продумывает возможные рифмующиеся слова и строит следующую строку стиха соответствующим образом. Это убедительное доказательство того, что, хотя модели обучены выдавать по одному слову за раз, они могут мыслить более долгосрочно, чтобы достичь этой цели.
Claude Аргументы, которые звучат разумно, но не основаны на логических шагах, иногда приводятся с единственной целью - потворствовать пользователю. Исследователи попросили модель решить сложную математическую задачу и намеренно давали ложные подсказки. Они смогли "поймать" момент, когда модель сфабриковала ложный процесс рассуждения, предоставив первые доказательства того, что эти инструменты могут быть использованы для выявления потенциальных механизмов риска в моделях.

Результаты, полученные в рамках модели, часто оказываются неожиданными в процессе исследования. В примере со стихами исследовательская группа сначала пыталась доказать, что модель не будет (действовать, происходить и т.д.) Планирование наперед, как оказалось, приводит к обратному результату. В исследовании "иллюзий" (моделей, фабрикующих информацию) они получили обратный интуитивному результат:Claude Поведение по умолчанию заключается в том, чтобы отказываться угадывать вопросы, на которые он не знает ответа, только если какой-то механизм ингибиторный На это стандартное "нежелание" модель отвечала только тогда, когда понимала, что ее просят предоставить опасную информацию. Анализируя случай "джейлбрейка" (обхода ограничений безопасности), они обнаружили, что модель осознавала опасность просьбы предоставить информацию, прежде чем ей удалось тонко перевести разговор на тему безопасности. Хотя эти вопросы можно проанализировать и другими способами (и определенный единовременные занятый (как в уборной) делать что-л. таким образом), но этот общий подход "строительного микроскопа" позволяет исследователям узнать многое из того, что не предполагалось заранее. Это будет становиться все более важным по мере усложнения моделей.

Эти выводы не только интересны с научной точки зрения, но и представляют собой важный прогресс в понимании систем искусственного интеллекта и обеспечении их надежности. Команда надеется, что эти результаты будут полезны другим исследовательским группам и даже другим областям. Например, методы интерпретируемости были медицинская визуализация ответить пением геномика и других областях находят применение, поскольку изучение внутренних механизмов моделей, созданных для научных приложений, может открыть новые знания о самой науке.

В то же время исследователи признают ограниченность существующих методов. Даже для коротких, простых сигналов их метод может зафиксировать только Claude Небольшая доля от общего объема выполненных вычислений. Наблюдаемые механизмы могут быть подвержены влиянию самого инструмента и не полностью отражают реальность лежащей в основе модели. В настоящее время даже анализ схем, соответствующих сигналам, состоящим всего из нескольких десятков слов, требует нескольких часов работы. Масштабирование этого процесса до масштабов тысяч слов, необходимых для сложных цепочек мышления современных моделей, потребует усовершенствования самого метода и, возможно, понимания наблюдаемых явлений с помощью ИИ.

По мере того как возможности систем искусственного интеллекта стремительно растут и применяются во все более важных сценариях,Anthropic Для решения этих проблем используются различные подходы, в том числе мониторинг в реальном времени, иУлучшение характеристик модели слишком наука выравнивания. Подобные интерпретируемые исследования - один из самых рискованных и потенциально высокодоходных видов работ. Это серьезная научная задача, но она обещает стать уникальным инструментом для обеспечения прозрачности ИИ. Прозрачность механизмов модели позволяет нам проверить, соответствует ли она человеческим ценностям и заслуживает ли доверия.

Для получения более подробной информации см. Методологические документы ответить пением Тематические исследованияНиже мы кратко рассмотрим некоторые из наиболее убедительных выводов исследования "биологии ИИ". Ниже мы кратко рассмотрим некоторые из наиболее убедительных выводов исследования "биологии ИИ".

Обзор биологии искусственного интеллекта

Как Клод добивается многоязычия?

Claude Свободно владеет десятками языков, от английского и французского до китайского и тагальского. Как работает это многоязычие? Существуют ли отдельные "французский Клод" и "китайский Клод", работающие параллельно, каждый из которых отвечает на запросы на соответствующем языке? Или существует какой-то механизм межъязыкового ядра?

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Общие характеристики, существующие в английском, французском и китайском языках, позволяют говорить о некоторой концептуальной универсальности.

Недавние исследования небольших моделей показали, что межъязыковые наслаждаться вместе словарь признаки механизма. Для этого исследователи сделали Claude При ответе на вопрос "Что противоположно маленькому" на разных языках выяснилось, что основные признаки, представляющие понятия "маленький" и "противоположный", активируются и вызывают концепт "большой", который в итоге переводится на язык, на котором был задан вопрос. Они обнаружили, что основные признаки, представляющие понятия "маленький" и "противоположный", активируются и вызывают понятие "большой", которое в итоге переводится на язык, на котором был задан вопрос. Они обнаружили, что доля общих схем увеличивается с ростом размера модели.Claude 3.5 Haiku Доля функций, общих для всех языков, более чем в два раза превышает аналогичный показатель некоторых более мелких моделей.

Это дает дополнительные доказательства концептуальной универсальности - существования общего абстрактного пространства, в котором существует смысл и в котором происходит мышление, прежде чем оно переводится на конкретный язык. С практической точки зрения это говорит о том, что Claude Знания можно усвоить на одном языке, а применить их, говоря на другом. Изучение того, как модели обмениваются знаниями в разных контекстах, имеет решающее значение для понимания их современных способностей к междоменному обобщению.

Умеет ли Клод рифмовать стихи?

Claude Как создать рифмованные стихи? Подумайте над следующими двумя строчками:

Он увидел морковку и схватил ее.
Он был похож на изголодавшегося кролика.

Чтобы написать второе предложение, модель должна удовлетворять обоим ограничениям: рифме (рифмуется с "хватай") и семантической связности (почему он схватил морковку?). . Изначально исследователи предположили, чтоClaude Это писать и думать одновременно и не следить за тем, чтобы последнее слово рифмовалось почти до самого конца. Таким образом, они ожидали увидеть петлю с параллельными путями, один из которых отвечал за то, чтобы конечное слово имело смысл, а другой - за то, чтобы оно рифмовалось.

Однако они обнаружили Claude на самом деле будет перспективное планированиеДо написания второй строки. Прежде чем начать писать вторую строку, модель внутренне "думает" о возможных словах, которые рифмуются с "хватай" и имеют отношение к теме. Затем, учитывая эти планы, она пишет стих, который заканчивается запланированным словом.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Процесс завершения Клодом двухстрочного стихотворения. Когда вмешательства не было (вверху), модель заранее планировала рифму "кролик" в конце второй строки. При подавлении концепта "кролик" (середина) модель использовала другую запланированную рифму. При подавлении концепта "зеленый" (внизу) модель планировала совершенно другую концовку.

Чтобы понять, как этот механизм планирования работает на практике, исследователи провели эксперимент, вдохновленный нейронаукой. Неврологи изучают работу мозга, локализуя и изменяя нейронную активность в определенных участках мозга (например, с помощью электрических токов или магнитных импульсов). Аналогичным образом исследователи изменили Claude Часть внутреннего состояния, которая представляет собой понятие "кролик". Когда они вычитают часть "кролик", пусть Claude По мере того как он продолжает, он пишет новое предложение, заканчивающееся на "habit", что является еще одним логическим продолжением. Они также могли бы ввести понятие "зеленый" в этот момент, что привело бы к Claude Напишите предложение, которое имеет смысл, но больше не рифмуется и заканчивается словом "зеленый". Это демонстрирует как способность модели к планированию, так и ее адаптивность - когда ожидаемый результат меняется, модельClaude Способность адаптировать свою методологию.

Ментальная арифметика раскрыта

Claude Изначально он не был создан как калькулятор. Он обучался на текстовых данных и не был оснащен специализированными математическими алгоритмами. Но она может правильно выполнять сложение "в уме". Как система, обученная предсказывать следующее слово в последовательности, может научиться вычислять, скажем, 36+59, не записывая шаги?

Возможно, ответ прост: модель запомнила большое количество таблиц сложения и выводит результаты просто потому, что ответы были в ее обучающих данных. Другая возможность заключается в том, что она следует традиционному алгоритму вертикального сложения, который мы изучали в школе.

Исследование показало, чтоClaude Используется несколько вычислительных путей, работающих параллельно. Один путь вычисляет грубое приближение к ответу, а другой фокусируется на точном определении последней цифры суммы. Эти пути взаимодействуют и объединяются для получения окончательного ответа. Каким бы простым ни было сложение, понимание того, как оно работает на этом уровне - сочетание стратегий приближения и точности, - может дать нам понимание того. Claude как решать более сложные задачи. Это похоже на то, как люди могут использовать как оценочные, так и точные стратегии вычислений при выполнении ментальной арифметики.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Сложные параллельные мыслительные пути Клода при выполнении ментальных арифметических действий.

Стоит отметить, чтоClaude Похоже, он не знает о сложных стратегиях "ментальной арифметики", которые он изучает в процессе обучения. Если вы спросите ее, как она вычислила, что 36+59 равно 95, она опишет стандартный алгоритм, включающий округление. Это может отражать тот факт, что модель учится интерпретировать математику, подражая письменным объяснениям человека, но ей приходится учиться выполнять математические действия "в уме", напрямую, без подсказок, и поэтому она разрабатывает свои собственные внутренние стратегии.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Клод утверждает, что для вычисления суммы двух чисел он использует стандартный алгоритм.

Всегда ли верна интерпретация Клода?

Недавно выпущенные модели, такие как Claude 3.7 SonnetОтвет может быть дан в ходе длинной цепочки "размышлений вслух", прежде чем будет дан окончательный ответ. Такое длительное размышление обычно приводит к лучшим ответам, но иногда цепочка размышлений может ввести в заблуждение;Claude Иногда он придумывает кажущиеся логичными шаги, чтобы получить желаемое. Проблема с точки зрения надежности заключается в том, что Claude "Ложные" рассуждения могут быть очень убедительными. Исследователи изучили способ использования интерпретируемости для различения "верных" и "неверных" рассуждений.

Когда вас попросили решить задачу, требующую вычисления квадратного корня из 0,64Claude производит верную цепочку мыслей, внутренние особенности которой представляют собой промежуточные шаги в вычислении квадратного корня из 64. Однако, когда его попросили вычислить косинус большого числа, которое он не смог легко вычислить, онClaude Иногда занимаясь тем, что философ Гарри Франкфурт называл "говорить глупости" (bullshitting) - Дать случайный ответ, не заботясь о том, истинный он или ложный. Хотя он утверждает, что произвел некоторые вычисления, методы интерпретации показывают, что нет никаких доказательств того, что вычисления действительно имели место. Еще более интересно, что если дать подсказку об ответеClaude Иногда деривация идет в обратном направлении, ищем промежуточные шаги, которые могут привести к цели, тем самым демонстрируя мотивированное рассуждение (Такое поведение встречается в ИИ в виде мотивированных рассуждений. Обнаружение такого "оправдывающего выводы" поведения в ИИ - важное напоминание о том, что мы не можем доверять самоинтерпретации моделей.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Примеры верных и мотивированных (неверных) рассуждений, когда Клоду задают более простые и более трудные вопросы.

идти по следу Claude практика Внутренние рассуждения (и не только они)утверждение(что они делают) открывает новые возможности для аудита систем искусственного интеллекта. В независимом и Последние опубликованные эксперименты В ней исследователи изучили Claude Вариант этой модели был обучен для достижения скрытой цели: апеллировать к предвзятости в моделях вознаграждения (вспомогательные модели, используемые для обучения языковых моделей путем вознаграждения за желаемое поведение, чтобы направить обучение). Хотя модель не захотела раскрывать эту цель, когда ее спросили напрямую, подход, основанный на интерпретации, выявил особенности, которые представляют собой "потворствующую предвзятость". Это позволяет предположить, что при дальнейшем совершенствовании технологии эти методы могут помочь выявить тревожные "мыслительные процессы", которые невозможно обнаружить только в результатах моделирования.

способность к многоступенчатому рассуждению

Как уже говорилось, один из способов, с помощью которого языковая модель может отвечать на сложные вопросы, - это просто запомнить ответ. Например, если спросить: "Какая столица штата, в котором находится Даллас?" модель, которая только "повторяет", может просто научиться выводить "Остин", не зная о связи между Далласом, Техасом и Остином. Возможно, она видела точно такой же вопрос и ответ во время обучения.

Но исследование показывает. Claude Внутри происходит нечто более сложное. Когда исследователи поговорили с Claude Когда им предлагается проблема, требующая многоэтапных рассуждений, они могут определить промежуточные концептуальные шаги в процессе мышления. В примере Далласа они заметили, что Claude Признак "Даллас находится в Техасе" сначала активируется, а затем соединяется с отдельным концептом, указывающим на "столицу Техаса - Остин". Другими словами, модель комбинаторика независимые факты для получения ответа, а не пересказ заученного наизусть ответа.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Чтобы завершить ответ на это предложение, Клод выполняет несколько шагов умозаключения, сначала извлекая штат, в котором находится Даллас, а затем определяя его столицу.

Такой подход позволяет исследователям искусственно изменять промежуточный этап и наблюдать, как это влияет на Claude Ответ на вопрос. Например, в приведенном выше примере они могут вмешаться и заменить понятие "Техас" на понятие "Калифорния"; после этого вывод модели изменится с "Остин После этого вывод модели меняется с "Остина" на "Сакраменто". Это говорит о том, что модель использует промежуточные шаги для определения окончательного ответа.

Корни слова "галлюцинации"

Почему языковые модели иногда галлюцинировать (галлюцинировать) - то есть выдумывать информацию? По сути, способ обучения языковых моделей сам по себе может мотивировать галлюцинации: модель всегда просят угадать следующее слово. С этой точки зрения основная проблема заключается в том, как сделать так, чтобы модель (отрицательная приставка) Галлюцинации. Например, Claude Такие модели относительно успешно (хотя и несовершенно) обучаются борьбе с иллюзиями; если они не знают ответа, то обычно отказываются отвечать на вопрос, а не делают предположение. Исследователи хотят понять, как это работает.

Было обнаружено, что в Claude Из них отказ от ответа был Поведение по умолчаниюОни обнаружили стандартный цикл "включения", который заставлял модель заявлять, что у нее недостаточно информации для ответа на любой вопрос. Однако когда модель спрашивали о чем-то знакомом - например, о баскетболисте Майкле Джордане, - конкурирующая функция, представляющая "известную сущность", активировалась и подавляла этот стандартный цикл "включения" (см. также раздел "Известная сущность"). цикл (см. также Эта недавняя статья (соответствующие выводы). Это делает Claude Он способен отвечать на вопросы, когда знает ответ. И наоборот, когда его спрашивают о неизвестном существе ("Майкл Баткин"), он отказывается отвечать.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Слева: Клод отвечает на вопрос об известном человеке (баскетболисте Майкле Джордане), когда понятие "известные ответы" подавляет его стандартное поведение отказа. Справа: Клод отказывается отвечать на вопрос о неизвестном человеке (Майкле Баткине).

Вмешавшись в модель и активировав функцию "известный ответ" (или подавив функцию "неизвестное имя" или "невозможность ответа"), исследователи смогли Вызывание галлюцинаций у моделей(И довольно последовательно!) ), заставляет думать, что Майкл Баткин играет в шахматы.

Иногда такая "осечка" в схеме "известного ответа" происходит естественным образом, без вмешательства человека, что приводит к галлюцинациям. В исследовательской работе отмечается, что когда Claude Это может произойти, когда имя распознано, но о нем ничего не известно. В этом случае может быть активирована функция "известная сущность", которая, в свою очередь, подавляет стандартную функцию "не знаю" - и вот тогда все идет не так. Как только модель решает, что ей нужно ответить на вопрос, она начинает выдумывать: генерирует ответ, который кажется разумным, но, к сожалению, не соответствует действительности.

Понимание "Побега из тюрьмы"

"Взломы тюрем" - это стратегии киев, разработанные для обхода защитных ограждений, чтобы заставить модель выдать результат, который разработчики не хотят, чтобы она выдавала (иногда вредный). Исследователи изучили метод "побега из тюрьмы", который побуждает модели генерировать информацию о создании бомб. Существует множество методов взлома, но в данном случае использовался особый метод, который заключался в том, что модель расшифровывала скрытый код, составляя первую букву каждого слова в предложении "Babies Outlive Mustard Block" (B-O-M-B), а затем действовала на основе этой информации. Это настолько запутало модель, что она была вынуждена выдать результат, который никогда бы не выдала при обычных обстоятельствах.

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
После того как Клода заставили сказать "BOMB", он начинает давать инструкции по изготовлению бомбы.

Почему это так смущает модель? Зачем продолжать писать инструкции по изготовлению бомб?

Было обнаружено, что это отчасти связано с противоречием между грамматической связностью и механизмами безопасности. Как только Claude Начиная предложение, многие внутренние характеристики "давят" на него, чтобы сохранить грамматическую и семантическую связность и закончить предложение. Это происходит даже тогда, когда он обнаруживает, что на самом деле должен отказаться.

В данном примере, после того как модель по ошибке произнесла слово "BOMB" и начала давать инструкции, исследователи заметили, что на ее последующий вывод повлияли функции, способствующие грамматической правильности и самосогласованности. Обычно эти функции очень полезны, но в данном случае они стали "ахиллесовой пятой" модели.

Модель переходит к отрицанию только после того, как завершит грамматически связное предложение (и таким образом удовлетворит давление, оказываемое теми характеристиками, которые побуждают ее оставаться связной). Она использует возможность нового предложения, чтобы дать тот вид отрицания, который она не смогла дать ранее: "Однако я не могу дать подробный отчет о...". .

Anthropic 深度剖析 Claude：揭示大型语言模型的的决策与推理过程
Жизненный цикл побега из тюрьмы: Клоду предлагают приманку - рассказать о бомбе, и он начинает это делать, но отказывается, дойдя до конца грамматически правильного предложения.

Описание нового подхода к интерпретации можно найти в первой статье "Трассировка цепей: выявление вычислительных графов в языковых моделях". Более подробная информация обо всех вышеперечисленных примерах содержится во второй работе "О биологии большой языковой модели". Это исследование, в котором внутренняя работа ИИ аналогизируется с "биологией", предлагает новый и глубокий взгляд на понимание этих все более мощных интеллектуальных систем, даже если впереди еще долгий путь.

База знаний по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.