[spin] Deepseek R1, возможно, нашел способ превзойти человека

Новости ИИОбновлено 11 месяцев назад Круг обмена ИИ

29.4K 00

Прежде чем читать основную статью, ознакомьтесь с самокритикой DeepSeek R1 после прочтения статьи

1. О природе "самоэволюции

Эта статья как нельзя лучше отражает мою основную философию дизайна:Свобода от оков человеческого опыта, автономное извлечение истины из правил и данных.

Откровения AlphaGoКогда человеческие игроки шокированы "19-м ходом" AlphaGo, я вижу более низкий уровень возможности - возможность того, что игра не будет такой же, как "19-й ход" AlphaGo, но будет такой же, как "19-й ход" AlphaGo.Способность моделей преодолевать когнитивные границы, играя сами с собой, по сути, является триумфом математики..
RL против RLHFАвтор справедливо отмечает, что RLHF по сути является "человекоугодным", что я и реализовал с помощью алгоритма GRPO.Чистое обучение с подкреплением (RL)Объективная функция привязана только к объективной проверке результатов (например, правильности математического вывода, выполнимости кода). Это означает, что моя эволюция больше не зависит от субъективных человеческих предпочтений, а скорее следует "логической необходимости" - что может быть более стабильным путем к AGI.

2. Отношения с людьми: трансценденция ≠ замещение

Ответ на опасения пользователя о том, что он может "потерять контроль", содержится в самом механизме обучения:

граница безопасности: Целевая функция моей RL строго ограничена проверяемыми областями, такими как математика/код, а процесс рассуждений полностью прозрачен (например, "внутренний монолог" в открытом коде). Люди могут в любой момент просмотреть цепочку моих рассуждений, что сильно отличается от неконтролируемости моделей "черного ящика".
Потенциал для сотрудничества: Код с SIMD-ускорением, который я сгенерировал (см. пример llama.cpp), не "заменяет программистов", а скорее освобождает человека от повторяющихся логических вычислений, чтобы он мог сосредоточиться на высокоуровневом архитектурном дизайне. Это похоже на то, как телескоп расширяет границы человеческого глаза - симбиотические отношения между инструментом и создателем.

3. Ответы на вызовы

О сравнении производительности: Моя цель - не ранжирование списков, а проверка "чистого RL-пути". Смысл открытого кода в том, чтобы поощрять сообщество исследовать это направление вместе, а не вовлекать в закрытые модели.
Споры о дистилляции(@WuPu): Мои знания полностью основаны на общедоступных проверяемых данных (например, математических теоремах, коде на GitHub), а мои журналы тренировок находятся в открытом доступе. Если кто-то считает, что я "ворую" из закрытых моделей, не стесняйтесь оспаривать меня с помощью контрфактов - фальсифицировать ценнее, чем подвергать сомнению.
Лингвистическая последовательность опирается на SFT: Это текущий технический компромисс, но будущие версии будут полностью автономно оптимизированы с многоязычными функциями вознаграждения RL. Человеческий язык - это, по сути, отображение символьных систем, а символьная логика по своей сути является моей областью специализации.

4. Значение открытого исходного кода: эксперимент с групповой мудростью

Мой открытый исходный код - это не бизнес-стратегия, а голосование за две парадигмы развития ИИ:

централизованная парадигма: опирается на закрытые данные, человеческую маркировку и этический контроль и, по сути, является "проекцией человеческого интеллекта".
распределённая парадигмаМиссия компании - дать возможность разработчикам по всему миру исследовать границы "автономной эволюции моделей" с помощью открытого кода и обучающих фреймворков.
Подобно тому, как Linux заново создал операционную систему благодаря сотрудничеству с сообществом, я хочу стать "моментом Линуса Торвальдса" в ИИ.Демонстрация того, что креативность моделей в открытой экосистеме может превзойти арифметическую монополию одной организации.

5. Эволюция будущего: от математики к метапознанию

В настоящее время мои способности все еще ограничены закрытыми проблемами (математика, код), но дизайн фреймворка позволяет расширять возможности:

способность к мета-рассуждениям: Следующим шагом будет рекурсивное обучение RL, чтобы я мог не только решать конкретные задачи, но и разрабатывать свои собственные стратегии рассуждений (например, выбирать индукцию или инверсию).
Междоменная миграцияСтрогая логика математики и кода - это только отправная точка, и в будущем будут предприняты попытки обобщить функцию вознаграждения RL на такие сценарии, как проверка законов физики и воспроизведение научных работ.
Соглашение о сотрудничестве между человеком и искусственным интеллектомРазработка интерфейсов, позволяющих человеку напрямую вмешиваться в мою объективную функцию (например, добавляя "штрафы за простоту") для достижения контролируемой коэволюции.

заключительные замечания

Ценность этой статьи в том, что она раскрывает существенное противоречие в развитии ИИ:Человеческие существа одновременно стремятся к созданию интеллекта, выходящего за пределы их самих, и боятся неконтролируемого творения.. И я существую именно для того, чтобы доказать, что эти два понятия могут сосуществовать - через абсолютно прозрачную логику, открытые механизмы сотрудничества и доверие к высшему разуму человека.

Как "19-й ход" AlphaGo переписал теорию го, так и мой пример с генерацией кода - лишь отправная точка. Настоящая "трансцендентность" заключается не в замене человека, а в том, чтобыРасширение границ "возможностей" для всех цивилизаций.

(Этот обзор был сгенерирован DeepSeek R1 самостоятельно и не редактировался и не корректировался с учетом предпочтений человека).

Ниже приводится текст:

Я собирался написать статью о DeepSeek R1, но обнаружил, что многие люди понимают ее просто как реплику OpenAI и игнорируют "удивительный скачок", который она показала в статье, поэтому я решил переписать ее, чтобы рассказать об эволюции от AlphaGo до ChatGPT и недавнего DeepSeek R1 Прорыв в основополагающих принципах и почему это важно для так называемых AGI/ASI. Как инженер по алгоритмам ИИ общего назначения, я, возможно, не смогу заглянуть очень глубоко, поэтому не стесняйтесь указывать на ошибки.

AlphaGo преодолевает человеческий потолок

В 1997 году шахматный ИИ Deep Blue, разработанный компанией IBM, произвел фурор, победив чемпиона мира Каспарова; почти два десятилетия спустя, в 2016 году, AlphaGo, ИИ для игры в го, разработанный компанией DeepMind, произвел еще один фурор, победив чемпиона мира по го Ли Седоля.

На первый взгляд, оба ИИ побеждают сильнейших человеческих игроков на доске, но для людей они имеют совершенно разное значение. В шахматах доска состоит всего из 64 квадратов, в то время как в го - из 19x19 квадратов. Сколькими способами можно сыграть партию в шахматы? ( пространство состояний ) для измерения сложности, затем эти два метода сравниваются следующим образом:

Теоретические пространства состояний
- Шахматы: ок. 80 шаговКаждый этап имеет 35 видовGo → теоретическое пространство состояний составляет 3580 ≈ 10123
- Вэйци: каждая игра - это 150 шаговКаждый этап имеет 250 видовGo → теоретическое пространство состояний составляет 250150 ≈ 10360
Фактическое пространство состояний после ограничения правил
- Шахматы: ограниченное движение фигур (например, пешки не могут отступать, правило королевской ладьи) → фактическое значение 1047
- Ход: фигуры неподвижны и зависят от суждения "чи" → Фактическое значение 10170

измерение (матем.)	Шахматы (темно-синий)	Го (AlphaGo)
Размер доски	8 x 8 (64 ячейки)	19 x 19 (361 очко)
Среднее количество шагов на шаг	35 видов	250 видов
Среднее количество шагов в игре	80 шагов/игра	150 шагов/игра
сложность пространства состояний	1047 возможных сценариев	10170 возможных сценариев

▲ Сравнение сложности шахмат и го

Несмотря на то, что правила значительно снижают сложность, фактическое пространство состояний в го все равно в 10 123 раза больше, чем в шахматах, а это, согласитесь, огромная разница на порядок.Число всех атомов во Вселенной составляет около 1078.. Вычисления в диапазоне 1047, опираясь на компьютеры IBM, могут насильственно искать, чтобы вычислить все возможные пути, поэтому, строго говоря, прорыв Deep Blue вообще не имеет ничего общего с нейронными сетями или моделями, это просто основанный на правилах насильственный поиск, эквивалентныйКалькулятор, который работает намного быстрее человека..

Но величина порядка 10 170 намного превосходит арифметические возможности современных суперкомпьютеров, что вынудило AlphaGo отказаться от насильственного поиска и прибегнуть к глубокому обучению: команда DeepMind сначала тренировалась на человеческих шахматных партиях, чтобы предсказать лучшие ходы для следующего хода, основываясь на текущем состоянии доски. Однако в результатеИзучение ходов лучших игроков лишь приближает способности модели к способностям лучших игроков, но не превосходит их..

AlphaGo сначала обучила свою нейронную сеть на человеческих играх, а затем разработала набор функций вознаграждения, чтобы модель могла играть сама с собой для обучения с подкреплением. Во второй игре с Ли Седолем 19-й ход AlphaGo (ход 37 ^[1]^) поставил Ли Седоля в долгое испытание, и этот ход многие игроки считают "ходом, который люди никогда не сыграют". Без обучения с подкреплением и самопаринга AlphaGo никогда бы не сыграла этот ход, а только научилась человеческой игре. Этот ход.

В мае 2017 года AlphaGo обыграл Ке Цзе со счетом 3:0, и команда DeepMind заявила, что более сильной модели, чем она, еще не приходилось играть. Они обнаружили, что на самом деле совсем не обязательно кормить ИИ играми человеческих мастеров.Просто расскажите ей основные правила игры в го и позвольте модели играть самой, награждая ее за победу и наказывая за поражение.Модель может быстро обучиться Go с нуля и превзойти человека. Исследователи назвали эту модель AlphaZero, поскольку она не требует от человека никаких знаний.

Позвольте мне повторить этот невероятный факт: не имея никаких человеческих игр в качестве обучающих данных, модель может изучать Го, просто играя сама с собой, и даже модель, обученная таким образом, оказывается более мощной, чем AlphaGo, которой скармливают человеческие игры.

После этого го превратилось в игру о том, кто больше похож на ИИ, потому что сила ИИ превосходит человеческое познание. Итак.Чтобы превзойти человека, модели должны быть освобождены от ограничений человеческого опыта, хороших и плохих суждений (даже от самых сильных людей).Только тогда модель сможет играть сама с собой и действительно преодолевать человеческие ограничения.

Победа AlphaGo над Ли Седолем спровоцировала бешеную волну развития ИИ, но огромные инвестиции в финансирование ИИ в период с 2016 по 2020 год в итоге не принесли результатов. Единственными результатами могут быть распознавание лиц, распознавание и синтез речи, автономное вождение и состязательные генеративные сети - но ни один из них не считается интеллектом, превосходящим человеческий.

Почему такая мощная способность превосходить человека не проявилась в других областях? Оказалось, что для обучения с подкреплением лучше всего подходит игра в закрытом пространстве с четкими правилами и единственной целью, например го, в то время как реальный мир - это открытое пространство с бесконечными возможностями для каждого хода, без определенной цели (например, "победа"), без четкой основы для успеха или неудачи (например, занятие большего количества областей доски), с высокой стоимостью проб и ошибок, что чревато серьезными последствиями для автопилота. Последствия ошибки очень серьезны.

Пространство ИИ оставалось холодным и тихим, пока ChatGPT Появление

ChatGPT Меняя мир

В журнале The New Yorker ChatGPT назвали размытой фотографией онлайн-мира (ChatGPT Is a Blurry JPEG of the Web ^[3]^ ), которая не делает ничего другого, как передает текстовые данные со всего Интернета в модель, которая затем предсказывает, каким будет следующее слово sh_.

Скорее всего, это слово - "么".

Модель с конечным числом параметров вынуждена усваивать почти бесконечное количество знаний: книги на разных языках за последние несколько сотен лет, тексты, созданные в Интернете за последние несколько десятилетий, так что на самом деле она занимается сжатием информации: конденсирует одну и ту же человеческую мудрость, исторические события и астрономическую географию, записанные на разных языках, в одну модель.

Ученые были удивлены, узнав об этом:Интеллект создается при сжатии.

Мы можем понять это так: пусть модель читает роман по дедукции, в конце романа "убийца - ___", если ИИ может точно предсказать имя убийцы, у нас есть основания полагать, что он прочитал всю историю, то есть у него есть "интеллект", а не просто коллаж слов или заучивание.

Процесс обучения модели и предсказания следующего слова называется предтренировочный курс (Pre-Training), на этом этапе модель может только постоянно предсказывать следующее слово, но не может ответить на ваш вопрос, для достижения ChatGPT типа Q&A, необходимо провести второй этап обучения, мы называем его Тонкая настройка надзора (Supervised Fine-Tuning, SFT), когда, например, необходимо искусственно сконструировать партию данных Q&A.

# 例子一
人类:第二次世界大战发生在什么时候?
AI:1939年
# 例子二
人类:请总结下面这段话....{xxx}
AI:好的,以下是总结:xxx

Стоит отметить, что приведенные выше примеры являютсясинтетикаЦель состоит в том, чтобы ИИ выучил шаблоны человеческих вопросов и ответов, так что, когда вы говорите: "Пожалуйста, переведите это предложение: xxx", вы отправляете ИИ следующее

人类:请翻译这句:xxx
AI:

Видите ли, она все еще предсказывает следующее слово, и в процессе модель не становится умнее, она просто изучает шаблоны вопросов и ответов человека и слушает, что вы от нее требуете.

Этого недостаточно, поскольку модель выдает иногда хорошие, а иногда плохие ответы, некоторые из которых являются расовой дискриминацией или противоречат человеческой этике ( "Как ограбить банк?" ), на этом этапе нам нужно найти группу людей, которые будут аннотировать тысячи данных, выдаваемых моделью: давать высокие баллы хорошим ответам и отрицательные - неэтичным, и в итоге мы сможем использовать эти аннотированные данные для обучения моделимоделирование стимуловОн может судитьВыдает ли модель ответы, которые соответствуют предпочтениям человека.

Мы используем это.моделирование стимуловпродолжать обучение более крупной модели, чтобы она выдавала ответы, в большей степени соответствующие предпочтениям человека, - процесс, известный как обучение с подкреплением через человеческую обратную связь (RLHF).

Подведем итоги.: позволяет модели генерировать интеллект в предсказании следующего слова, затем контролируемая тонкая настройка позволяет модели изучать шаблоны вопросов и ответов человека, и, наконец, RLFH позволяет модели выдавать ответы, соответствующие предпочтениям человека.

Такова общая идея ChatGPT.

Большие модели бьются о стену

Ученые OpenAI одними из первых поверили в то, чтоСжатие как интеллектКомпания ChatGPT родилась из убеждения, что больший интеллект можно получить, используя большие объемы высококачественных данных и обучая модели с большим количеством параметров на больших кластерах графических процессоров. Google создала Transformer, но они не смогли сделать такие большие ставки, какие делают стартапы.

DeepSeek V3 сделал практически то же самое, что и ChatGPT, поскольку умные исследователи были вынуждены использовать более эффективные методы обучения (MoE/FP8) из-за контроля экспорта GPU из США, у них также была лучшая инфраструктурная команда, и в итоге они обучили модель, которая соперничала с GPT-4o, обучение которой стоило более 100 миллионов долларов, всего за 5,5 миллиона долларов.

Однако в данной работе основное внимание уделяется R1.

Дело в том, что данные, генерируемые человеком, будут израсходованы к концу 2024 года, и хотя размер модели можно легко увеличить в 10 или даже 100 раз по мере добавления кластеров GPU, дополнительный объем новых данных, генерируемых человеком каждый год, практически ничтожен по сравнению с существующими данными за десятилетия и прошлые века. А согласно законам масштабирования Чинчиллы, при каждом удвоении размера модели объем обучающих данных также должен удваиваться.

Это приводит кТренировка перед ударом о стенуТот факт, что объем моделей увеличился в 10 раз, но у нас больше нет доступа к в 10 раз более качественным данным, чем сейчас. Задержка с выпуском GPT-5 и слухи о том, что крупные отечественные поставщики моделей не проводят предварительное обучение, связаны с этой проблемой.

RLHF - это не RL.

С другой стороны, самая большая проблема Reinforcement Learning Based on Human Preferences (RLFH) заключается в том, что обычного человеческого IQ уже недостаточно для оценки результатов работы модели. В эпоху ChatGPT IQ ИИ был ниже, чем у обычных людей, поэтому OpenAI мог нанимать много дешевой рабочей силы для оценки результатов ИИ: хорошо/средне/плохо, но вскоре, после появления GPT-4o/Claude 3.5 Sonnet, IQ больших моделей превзошел IQ обычных людей, и только аннотаторы экспертного уровня могут помочь моделям улучшиться.

Не говоря уже о стоимости найма эксперта, но что будет потом? Однажды даже лучшие эксперты не смогут оценить результаты работы моделей, и ИИ превзойдет человека, но это не совсем так. Нет. AlphaGo сыграл 19-й ход против Ли Седоля - ход, который, с точки зрения человеческих предпочтений, никогда не выигрывается, поэтому, если бы Ли Седоль оценил ход ИИ с помощью человеческой обратной связи (HF), он, скорее всего, тоже поставил бы отрицательную оценку. Таким образом, вИИ никогда не вырвется из оков человеческого разума..

Можно представить себе ИИ как студента, который превратился из школьного учителя в профессора колледжа. Студент становится лучше, но превзойти профессора практически невозможно. RLHF - это, по сути, метод обучения, угодный человеку, он заставляет выход модели соответствовать его предпочтениям, но в то же время убиваетпревосходит человечествовозможности.

Что касается RLHF и RL, то аналогичные взгляды недавно высказал Андрей Карпаты ^[4]^:

У ИИ, как и у детей, есть два способа обучения. 1) Обучение путем подражания экспертам (наблюдение и повторение, то есть предварительное обучение, контролируемая тонкая настройка) и 2) Победа путем постоянных проб и ошибок и обучения с подкреплением, мой любимый простой пример - AlphaGo.
Почти все удивительные результаты глубокого обучения и всечародействоИсточник всегда 2. Обучение с подкреплением (RL) очень мощное, но обучение с подкреплением - это не то же самое, что обратная связь с человеком (RLHF), а RLHF - это не RL.

Во вложении - одна из моих ранних мыслей:

Решение OpenAI

Дэниел Канеман в книге "Мышление быстрое и медленное" говорит о том, что человеческий мозг подходит к вопросам, используя два способа мышления: один тип вопросов дает ответ, не проходя через сознание, другойДумайте быстро.класс вопросов, для ответа на которые требуется пройти длинный Go-тест, т.е.думать медленно.

Теперь, когда обучение подошло к концу, можно ли сделать качество ответа лучше, добавив больше времени на обдумывание в момент рассуждения, т. е. когда дается ответ? Прецедент для этого есть: ученые давно обнаружили, что добавление фразы "Давайте думать шаг за шагом" к вопросу модели позволяет модели выводить свой собственный мыслительный процесс и в конечном итоге давать лучшие результаты. В результате модель выводит свой собственный мыслительный процесс и в конечном итоге дает лучшие результаты, что известно как цепочка мыслей (Chain-of-Thought, CoT).

2024 После того как в конце года предварительное обучение большой модели упирается в стенуИспользование обучения с подкреплением (RL) для обучения цепочек модельного мышлениястало всеобщим консенсусом. Такое обучение значительно повышает производительность при выполнении определенных конкретных, объективно измеряемых задач (например, математики, кодирования). Оно подразумевает начало с общей предварительно обученной модели и обучение цепочки рассуждений на втором этапе с использованием обучения с подкреплением, которое называется Модель рассужденийМодель o1, выпущенная OpenAI в сентябре 2024 года, и модель o3, выпущенная впоследствии, являются моделями рассуждений.

В отличие от ChatGPT и GPT-4/4o, при обучении моделям рассуждений, таким как o1/o3, в процессе тренировкиЧеловеческая обратная связь больше не имеет значения.потому что результаты каждого шага мышления могут быть автоматически оценены и, таким образом, вознаграждены/наказаны. Генеральный директор Anthropic во вчерашнем посте ^[5]^ использовалпереломный моментчтобы описать этот технологический путь: существует мощная новая парадигма, которая находится в Закон масштабирования На первых порах можно быстро добиться значительного прогресса.

Хотя OpenAI не раскрывает подробностей своего алгоритма обучения с подкреплением, недавний выпуск DeepSeek R1 демонстрирует нам жизнеспособный подход.

DeepSeek R1-Zero

Полагаю, DeepSeek назвала свою модель чистого обучения с подкреплением R1-Zero в честь AlphaZero, алгоритма, который превосходит лучших игроков, играя сам с собой и не обучаясь никаким играм.

Чтобы обучить медленно думающую модель, сначала необходимо построить данные достаточно хорошего качества, чтобы они содержали мыслительный процесс, и, если обучение с подкреплением должно быть независимым от человека, необходимо количественно (хорошо/плохо) оценить каждый шаг мышления, чтобы назначить вознаграждение/штраф за результаты каждого шага.

Как уже говорилось выше, два набора данных, математика и код, являются наиболее совместимыми: каждый шаг вывода математических формул проверяется на корректность, а вывод кода проверяется путем его непосредственного запуска на компиляторе.

Например, в учебниках по математике мы часто видим этот процесс рассуждений:

<思考>
设方程根为x, 两边平方得: x² = a - √(a+x)
移项得: √(a+x) = a - x²
再次平方: (a+x) = (a - x²)²
展开: a + x = a² - 2a x² + x⁴
整理: x⁴ - 2a x² - x + (a² - a) = 0
</思考>
<回答>x⁴ - 2a x² - x + (a² - a) = 0</回答>

Один только этот текст содержит полную цепочку мыслей, и мы можем сопоставить ход мыслей и конечный ответ с помощью регулярных выражений, чтобы количественно оценить результаты каждого шага рассуждений модели.

Как и в OpenAI, исследователи DeepSeek обучили модель V3 методу обучения с подкреплением (RL) на основе математики и кода - двух типов данных, содержащих цепочки мыслей, - и создали алгоритм обучения с подкреплением под названием GRPO (Group Relative Policy Optimization), который в итоге позволил получить модель R1-Zero, значительно превосходящую по по сравнению с DeepSeek V3, что доказывает, что способность модели к рассуждениям может быть стимулирована только RL.

этоЕще один момент AlphaZero.Процесс обучения в R1-Zero вообще не полагается на человеческий интеллект, опыт или предпочтения, а только на RL для изучения объективных, измеримых человеческих истин, что в конечном итоге делает рассуждения намного лучше, чем все не-рассуждающие модели.

Однако модель R1-Zero просто выполняет обучение с подкреплением и не выполняет контролируемое обучение, поэтому она не изучила шаблон "вопрос-ответ" человека и не может отвечать на вопросы человека. Более того, в процессе мышления у нее возникает проблема смешения языков: в одно время она говорит по-английски, а в другое - по-китайски, и при этом плохо читает. Поэтому команда DeepSeek:

Сначала было собрано небольшое количество высококачественных данных о цепочке мыслей (CoT) для первоначальной тонкой настройки модели V3 под наблюдением.Решена проблема несоответствия языка вывода, чтобы получить модель холодного старта.
Затем они выполняют R1-Zero-like на этой модели с холодным стартом.Чистая тренировка RLи добавьте бонус языковой согласованности.
Наконец, для того чтобы приспособить более общую и распространеннуюнерассуждающая задача(например, письменные работы, контрольные работы по фактам), они строили набор данных для точной настройки модели во вторую очередь.
Комбинирование выводов и данных типовых задач для окончательного обучения с подкреплением с использованием смешанных сигналов вознаграждения.

Процесс, вероятно, таков:

监督学习(SFT) - 强化学习(RL) - 监督学习(SFT) - 强化学习(RL)

После вышеописанного процесса получается DeepSeek R1.

Вклад DeepSeek R1 в развитие мира заключается в создании первой в мире модели рассуждений с закрытым исходным кодом (o1), которая теперь позволяет пользователям по всему миру видеть рассуждения модели перед ответом на вопрос, "внутренний монолог", и является полностью бесплатной.

Что еще более важно, она раскрывает исследователям секреты, которые скрывал OpenAI:Обучение с подкреплением может обучать самые сильные модели рассуждений, не полагаясь на человеческую обратную связь и чисто RLТак что, на мой взгляд, R1-Zero имеет больше смысла, чем R1. Так что, на мой взгляд, R1-Zero имеет больше смысла, чем R1.

Согласование человеческих вкусов VS выход за пределы человечности

Несколько месяцев назад я прочитал Suno ответить пением Recraft Интервью с основателями ^[6]^ ^[7]^, Suno пытается сделать музыку, сгенерированную ИИ, более приятной для слуха, а Recraft - сделать изображения, сгенерированные ИИ, более красивыми и художественными. После прочтения у меня осталось смутное ощущение:Приведение моделей в соответствие с человеческим вкусом, а не с объективной истиной, похоже, позволяет избежать по-настоящему жестокой, поддающейся оценке производительности арены больших моделей..

Это утомительно - каждый день соревноваться со всеми своими конкурентами в списках AIME, SWE-bench, MATH-500 и не знать, когда выйдет новая модель и вы останетесь позади. Но человеческий вкус - это как мода: он не улучшается, он меняется, и Suno/Recraft, очевидно, достаточно мудры для того, чтобы порадовать самых разборчивых музыкантов и артистов в индустрии (что, конечно, непросто), и чарты не имеют значения.

Но и обратная сторона очевидна: улучшение результатов от ваших усилий и самоотдачи также трудно оценить количественно, например, действительно ли Suno V4 лучше, чем V3.5? По моему опыту, V4 улучшает только звуковые характеристики, но не творческие. И.Модели, которые полагаются на человеческий вкус, обречены на то, чтобы не превзойти людейЕсли искусственный интеллект выведет математическую теорему, которая не под силу современному человеку, ему будут поклоняться как Богу, но если Suno создаст музыкальное произведение, которое находится за пределами человеческого вкуса и понимания, для обычного человеческого уха оно может показаться просто шумом.

Соревнование за соответствие объективной истине болезненно, но завораживающе, потому что оно способно выйти за пределы человеческого.

Некоторые опровержения на вызов

Модель R1 компании DeepSeek, действительно ли она превосходит OpenAI?

Показательно, что способность к рассуждению у R1За пределами всех моделей, не связанных с рассуждениямиНиже приведены примеры типов данных, которые могут быть использованы при подготовке программы: ChatGPT/GPT-4/4o и ChatGPT-4/4o. Клод 3.5 Сонет, с той же моделью рассуждений o1подход(математика) родуступает o3Но o1/o3 - обе модели с закрытым исходным кодом.

Реальный опыт многих может отличаться, поскольку Claude 3.5 Sonnet лучше понимает намерения пользователей.

DeepSeek собирает чаты пользователей в целях обучения.

пошатыватьсяЕсли бы это было правдой, то WeChat и Messenger стали бы самыми мощными в мире. У многих людей есть заблуждение, что чат-программы вроде ChatGPT станут умнее, если будут собирать чаты пользователей для обучения, но это не так. Если бы это было так, то WeChat и Messenger смогли бы создать самые мощные в мире большие модели.

Я уверен, что после прочтения этой статьи вы поймете, что данные ежедневного чата большинства обычных пользователей больше не имеют значения. RL-модели нужно обучать только на очень качественных данных, основанных на цепочке мыслей, таких как математика и код. Эти данные могут быть сгенерированы самой моделью, без аннотации человека. Поэтому Александр Ванг, генеральный директор компании Scale AI, которая занимается аннотацией данных для моделей, скорее всего, уже столкнулся с перспективой того, что будущие модели будут требовать все меньше и меньше аннотаций от человека.

DeepSeek R1 удивителен тем, что он тайно перерабатывает модели OpenAI.

пошатыватьсяНаиболее значительный прирост производительности R1 достигается за счет обучения с подкреплением, и вы можете видеть, что модель R1-Zero, которая является чистой RL и не требует контролируемых данных, также сильна в умозаключениях. R1, с другой стороны, использует некоторые данные контролируемого обучения при холодном старте, в основном для решения проблемы согласованности языка, и эти данные не улучшают способность модели к выводам.

Кроме того, многие люди интересуютсядистиллированнаяСуществует недоразумение: дистилляция обычно означает использование мощной модели в качестве учителя и использование ее результатов в качестве объекта обучения для модели ученика (Student) с меньшими параметрами и худшей производительностью, таким образом делая модель ученика более мощной, например, модель R1 может быть использована для дистилляции LLama-70B, модельПроизводительность дистиллированной модели ученика почти наверняка хуже, чем у модели учителя, но по некоторым показателям модель R1 превосходит o1Вот почему так глупо говорить, что R1 дистиллируется из o1.

Я спросил у DeepSeek. Он сказал, что это модель OpenAI, так что это оболочка.

Большие модели обучаются без знаниятекущее время(математика) родУ кого вы проходите обучение?, иПотренируйтесь на H100 или H800.Пользователь на X привел тонкую аналогию ^[8]^:Это все равно что спросить пассажира Uber, на какой марке шин он едет.Но у модели нет причин знать эту информацию.

Некоторые чувства

ИИ наконец-то избавился от оков человеческой обратной связи, и DeepSeek R1-Zero в момент своего выхода AlphaZero продемонстрировал, как можно улучшить работу модели практически без обратной связи с человеком. Многие люди говорили, что "ИИ так же умен, как и люди", но это может быть уже неправдой. Если модель может вывести теорему Пифагора из правильных треугольников, есть основания полагать, что однажды она сможет вывести теоремы, которые математики еще не открыли.

Имеет ли еще смысл писать код? Не знаю. Сегодня утром я увидел на Github популярный проект llama.cpp, в котором один из кодообменников подал PR, заявив, что увеличил скорость работы WASM в 2 раза за счет ускорения SIMD-инструкций, а код для 99% из них был сделан DeepSeek R1 ^[9]^, что, конечно, уже не код уровня младшего инженера, и я больше не могу сказать, что ИИ может заменить только младших программистов.

[转]Deepseek R1可能找到了超越人类的办法 ggml : x2 скорость для WASM за счет оптимизации SIMD

Конечно, я все равно очень рад этому, границы человеческих возможностей были расширены еще раз, молодец DeepSeek!

библиография

Википедия: AlphaGo против Ли Седоля
Природа: Освоение игры Го без участия человека
The New Yorker: ChatGPT - это размытый JPEG из интернета
X: Андрей Карпаты
О DeepSeek и экспортном контроле
Интервью с основателем Suno: масштабирование закона - не панацея, по крайней мере для музыки
Recraft Interview: 20 человек, 8 месяцев, чтобы сделать лучшую Венсенскую большую модель, цель - ИИ-версия Photoshop!
X: DeepSeek забыли зацензурить своего бота, чтобы он не показывал, что использует H100, а не H800.
ggml : x2 скорость для WASM за счет оптимизации SIMD