Разрешая путаницу o1, можно ли считать модели умозаключений, подобные DeepSeek-R1, мыслящими или нет?

База знаний по искусственному интеллектуОпубликовано 11 месяцев назад Круг обмена ИИ

30.2K 00

Нашел интересную статью на сайте TheМысли разбегаются: о недостаточной продуманности o1-подобных LLM", тема - анализ модели рассуждения o1 типа Частое переключение путей мышления и отсутствие сосредоточенности в мышлении, называемое"Недоумение".Также приводятся методы смягчения последствий. Эта статья одновременно отвечает на вопрос, является ли модель вывода снова мыслящей или нет, и, надеемся, читатель найдет свой собственный ответ.

I. История вопроса:

В последние годы большие языковые модели (LLM), представленные в OpenAI моделью o1, продемонстрировали превосходные возможности в сложных задачах рассуждения, где они имитируют глубину человеческого мышления за счет увеличения объема вычислений, участвующих в процессе рассуждения. Однако существующие исследования ставят под сомнение глубину мышления LLM:Действительно ли эти модели глубоко мыслят?

Чтобы ответить на этот вопрос, авторы данной статьи предлагают"Недоумение".концепцию и систематически анализирует ее. Авторы утверждают, чтонедостаточно пищи для размышленийэто o1 класс LLM в решении сложных задач.Слишком ранний отказ от перспективных путей вывода приводит к недостаточной глубине проработки и в конечном итоге сказывается на производительности модели. Это явление особенно ярко проявляется в математических головоломках.

II. Методы рефлексии и исследования:

Чтобы глубже изучить феномен недомыслия, авторы провели следующее исследование:

1. Определение и наблюдение за явлением дефицита отражения

Определение мышления: Авторы определяют "мышление" как промежуточный когнитивный шаг в процессе рассуждения модели и используют такие термины, как "альтернативно", как признак переключения мышления.
- Пример: На рисунке 2 авторы приводят пример результата модели, содержащей 25 шагов мышления, и сравнивают его с результатом чрезмерного мышления.
Экспериментальная конструкция:
- Наборы для тестирования: Авторы выбрали три сложных набора тестов:
  - MATH500. Содержит вопросы из школьных математических конкурсов, сложность которых варьируется от 1 до 5.
  - Бриллиант GPQA. Содержит вопросы с множественным выбором для выпускников по физике, химии и биологии.
  - AIME2024. Темы пригласительного математического конкурса США охватывают широкий спектр областей, включая алгебру, счет, геометрию, теорию чисел и вероятность.
- Выбор модели: Авторы выбрали две открытые модели класса o1 с заметными длинными цепочками размышлений: QwQ-32B-Preview и DeepSeek-R1-671B, и использовали DeepSeek-R1-Preview в качестве дополнения, чтобы показать развитие семейства моделей R1.

2. анализ проявлений неадекватного отражения

Подумайте о частоте переключений и сложности задач:
- Авторы обнаружили, что количество генерируемых размышлений и количество генерируемых лексем увеличивается для всех моделей по мере увеличения сложности задачи (см. Рисунок 3).
- Это говорит о том, что ЛЛМ класса o1 способны динамически адаптировать процесс рассуждений для решения более сложных задач.
Размышления о переключении и реакции на ошибку:
- Во всех тестовых наборах ЛЛМ класса o1 чаще переключали мышление при генерации неправильных ответов (см. рис. 1 и 4).
- Это говорит о том, что, хотя модель направлена на динамическую адаптацию когнитивных процессов для решения задач, более частое переключение мышления не обязательно приводит к повышению точности.

3. Глубокое исследование природы дефицита мышления

Оцените правильность мышления:
- Авторы использовали две модели на основе Llama и Qwen (DeepSeek-R1-Distill-Llama-70B и DeepSeek-R1-Distill-Qwen-32B) для оценки правильности каждого шага мышления.
- Результаты показывают, чтоЗначительная часть первых шагов мышления в ответе на ошибку верна, но не полностью изучена(см. рисунок 5).
- Это говорит о том, что модель, столкнувшись со сложной проблемойСклонность преждевременно отказываться от перспективных путей рассуждений, что приводит к отсутствию глубины мышления.
Подумайте о распределении правильности:
- Авторы обнаружили, что более 701 ошибочного ответа TP3T содержал по крайней мере один правильный шаг мышления (см. Рисунок 6).
- Это еще раз подтверждает вышеизложенную точку зрения:o Модели класса 1 способны инициировать правильные пути рассуждений, но им может быть трудно продолжить эти пути до правильного вывода.

4. Количественная оценка отсутствия рефлексии: предложение новых показателей для оценки

Размышления о заниженных показателях (UT):
- Эта метрика количественно оценивает степень недодуманности, измеряя эффективность маркера при генерации ответа на ошибку.
- В частности, метрика UT рассчитывает отклик на ошибку, при которомКоличество лексем, правильно осмысленных от начала к первой, как доля от общего количества лексем.
- Более высокие значения UT указывают на более высокий уровень заниженного мышленият.е. большая часть лексем, генерируемых моделью в ответ на ошибку, не вносит эффективного вклада в формирование правильного мышления.

5. Влияние недостаточного мышления на производительность модели:

Авторы обнаружили, чтоФеномен недомыслия по-разному проявляется в разных наборах данных и задачах::
- На наборах данных MATH500-Hard и GPQA Diamond модель DeepSeek-R1-671B, хотя и была более точной, также имела более высокое значение UT, что говорит о более низком уровне мышления в ее реакции на ошибку.
- На тестовом наборе AIME2024 модель DeepSeek-R1-671B имеет не только более высокую точность, но и более низкое значение UT, что говорит о более целенаправленном и эффективном процессе вывода.

III. Важные выводы:

Недостаток мышления является важным фактором плохой работы o1 LLM над сложными проблемами. Частое переключение мышления приводит к тому, что модель не может глубоко исследовать перспективные пути умозаключений, что в конечном итоге сказывается на ее точности.
Феномен недостаточного мышления связан с трудностью задачи и способностью к моделированию. Более сложные проблемы усугубляют недодуманность, а более мощные модели не всегда уменьшают недодуманность.
Недоумение отличается от переумения. Излишняя задумчивость - это когда модель тратит вычислительные ресурсы на решение простых задач, а недостаточная задумчивость - когда модель преждевременно отказывается от перспективных путей умозаключений при решении сложных задач.
Индикатор заниженного мышления (UT) позволяет эффективно оценить степень заниженного мышления. Эта метрика дает новую перспективу для оценки эффективности рассуждений LLM класса o1.

IV. Стратегии реагирования:

Чтобы облегчить проблему неадекватного мышления, авторы предлагаютСтратегия декодирования со штрафом за переключение (TIP)::

Основные идеи: В процессе декодирования к маркеру, связанному с переключателем мыслей, применяются штрафные санкции.Поощряйте модели к более глубокому изучению текущего мышления, прежде чем переходить к новому..
Результаты: Стратегия TIP повышает точность модели QwQ-32B-Preview на всех тестовых наборах, доказывая ее эффективность в устранении проблемы недостаточного мышления.

V. Перспективы на будущее:

Авторы предлагают такие направления будущих исследований, как:

Разработка адаптивных механизмов, позволяющих моделям самостоятельно регулировать переключение мышления.
Дальнейшее повышение эффективности выводов LLM класса o1.

База знаний по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.