Ву Энда предлагает четыре типа интеллигенции: рабочие процессы интеллигенции AI возглавляют новые тенденции в искусственном интеллекте

Оригинальный текст:Агенты с общими возможностями в открытых мирах [S62816]

 

1. рефлексивный интеллект

  • Возможность проверять и изменять сгенерированный вами код или контент, а также итеративно оптимизировать его
  • Благодаря самоанализу и пересмотру можно получить результаты более высокого качества
  • Это надежная и эффективная технология, подходящая для широкого спектра применений.

2. Использование инструментальных интеллектов

  • Умение использовать различные инструменты для сбора информации, анализа и принятия мер, расширяя спектр применения.
  • Ранние исследования использования инструментов зародились в основном в области компьютерного зрения, где языковые модели еще не были способны обрабатывать изображения.

3. Интеллект планирования

  • Демонстрирует удивительную способность к автономной разработке и выполнению планов в соответствии с поставленными задачами.
  • Если шаг не удался, способность изменить маршрут, чтобы избежать неудачи, с определенной степенью автономности и адаптивности.
  • Пока он не совсем надежен, но когда он работает, это просто потрясающе.

4. Совместный мультиинтеллект

  • Если распределить интеллекты по разным ролям и дать им возможность работать вместе над выполнением заданий, они смогут проявить более сильные способности, чем один интеллект.
  • Мультиинтеллектуалы могут вести глубокий диалог и разделять работу для выполнения сложных задач развития или творчества.
  • Также возможна дискуссия между несколькими интеллектами, что является эффективным способом улучшить работу модели.

 

Я с нетерпением жду возможности поделиться своими выводами об искусственном интеллекте, который, на мой взгляд, является захватывающей тенденцией, за которой должны следить все, кто занимается разработкой ИИ. Я также с нетерпением жду всех "будущих тенденций", которые будут представлены.

 

Итак, давайте поговорим об интеллигенции ИИ. Большинство из нас использует Big Language Modelling следующим образом: в процессе работы без интеллигенции мы вводим запрос, а затем генерируем ответ. Это похоже на то, как если бы вы попросили кого-то написать статью на определенную тему, а я говорю, что вы просто садитесь за клавиатуру и набираете ее одним махом, без права на возврат. Несмотря на сложность этой задачи, большая языковая модель справляется с ней на удивление хорошо.

 

В отличие от этого, рабочий процесс с интеллектуальным ИИ может выглядеть следующим образом. Пусть ИИ или большая языковая модель напишет набросок статьи. Нужно что-то найти в Интернете? Если нужно, то поищите. Затем напишите первый черновик, перечитайте его и подумайте, какие части нужно изменить. Затем пересмотрите свой черновик и двигайтесь дальше. Таким образом, этот рабочий процесс итеративен: вы можете заставить большую языковую модель немного подумать, затем пересмотреть статью, потом еще немного подумать и так далее. Мало кто понимает, что так результаты получаются лучше. Я сам удивлен результатами работы этих ИИ-интеллектов.

 

Я собираюсь провести тематическое исследование. Моя команда проанализировала некоторые данные, используя эталон программирования под названием Human Evaluation Benchmark, который был выпущен OpenAI несколько лет назад. Этот бенчмарк состоит из таких задач программирования, как нахождение суммы всех нечетных элементов или элементов в нечетных позициях, заданных непустым списком целых чисел. Ответом может быть фрагмент кода, подобный этому. Многие из нас используют подсказки с нулевой выборкой, то есть говорят ИИ написать код, а затем заставляют его выполнить все сразу. Кто будет так программировать? Никто. Мы просто пишем код, а потом запускаем его. Может, вы так и делаете. Я не могу.

 

На самом деле, если вы используете GPT 3.5 для кьюинга с нулевой выборкой, то получите 481 TP3 T. GPT-4 справляется гораздо лучше, получая 671 TP3 T. Но если вы построите рабочий процесс с использованием искусственного интеллекта поверх GPT 3.5, то он может работать даже лучше, чем GPT-4. Если применить этот рабочий процесс к GPT-4, результаты также будут очень хорошими. Вы заметите, что GPT 3.5 с рабочим процессом AI Intelligentsia действительно лучше, чем GPT-4, а это значит, что он окажет большое влияние на то, как мы создаем приложения.

 

Термин "ИИ-интеллектуал" широко обсуждается, и существует множество консалтинговых отчетов, посвященных ИИ-интеллектуалам, будущему ИИ и так далее. Я хотел бы поделиться с вами более предметно некоторыми общими паттернами проектирования, которые я вижу в ИИ-интеллектах. Это сложная и запутанная область с множеством исследований, множеством проектов с открытым исходным кодом. Много чего происходит. Но я пытаюсь дать более релевантный обзор того, что происходит в ИИ-интеллектах.

 

Рефлексия - это инструмент, который, как мне кажется, должен использоваться большинством из нас. Он действительно работает. Я думаю, что его следует использовать более широко. Это действительно очень надежная техника. Когда я их использую, они всегда работают. Что касается планирования и взаимодействия нескольких разведок, то, на мой взгляд, это новая область. Когда я их использую, то иногда удивляюсь тому, насколько хорошо они работают. Но, по крайней мере, на данный момент я не уверен, что смогу заставить их работать постоянно. Поэтому позвольте мне более подробно остановиться на этих четырех паттернах проектирования на следующих нескольких страницах слайдов. Если кто-то из вас вернется и опробует их на себе или заставит своих инженеров использовать эти паттерны, я думаю, вы очень быстро заметите рост производительности.

 

Итак, что касается размышлений, вот пример. Допустим, я прошу систему закодировать для меня задачу. И тогда у нас есть программистский интеллект, который просто дает ей подсказку закодировать задачу, например, определить функцию, которая выполняет задачу, написать функцию типа такой-то. Примером саморефлексии является то, что вы можете подсказать большой языковой модели вот так. Вот кусок кода, написанный для конкретной задачи. Затем снова представьте ей точно такой же код, который она только что сгенерировала. Затем попросите ее внимательно изучить этот код на предмет его правильности, эффективности и хорошей структуры, задавая вопросы, подобные этим. Результаты покажут, что та же самая большая языковая модель, которую вы подсказали для кода ранее, сможет найти проблему, подобную ошибке в строке 5, и исправить ее. И так далее. Если теперь вы снова предоставите ей обратную связь, она может создать вторую версию кода, которая будет работать лучше, чем первая. Гарантий нет, но в большинстве случаев такой подход стоит попробовать во многих приложениях. Если вы попросите его выполнить модульные тесты, и если он не пройдет их, вы можете спросить, почему он не прошел их. В результате такого диалога, возможно, удастся выяснить, почему он не прошел модульные тесты, и попробовать что-то изменить и сгенерировать V3-версию кода. Кстати, для тех из вас, кто хочет узнать больше об этих техниках, я очень увлечен ими. Для каждой части презентации я включил внизу рекомендуемую литературу, чтобы, надеюсь, предоставить больше ссылок.

 

И снова, чтобы представить мультиинтеллектуальную систему тела, я описываю программируемое интеллектуальное тело, которое вы можете побудить вести этот диалог с самим собой. Естественным развитием этой идеи является то, что вместо одного программирующего интеллекта вы можете создать два интеллекта, один программирующий, а другой рассматривающий. Все они могут быть основаны на одной и той же большой языковой модели, просто с разными способами предоставления подсказок. Одной стороне мы говорим: "Ты эксперт по программированию, пиши код". Другой стороне мы говорим: вы эксперт по рецензированию кода, пожалуйста, просмотрите этот код. На самом деле это очень простой в реализации рабочий процесс. Я думаю, что это очень универсальная техника, которую можно приспособить к самым разным рабочим процессам. Она значительно повысит производительность большой языковой модели.

 

Второй шаблон проектирования - это использование инструментов. Многие из вас, возможно, видели, как системы, основанные на больших языковых моделях, используют инструменты. Слева - скриншот из второго пилота, а справа - часть того, что я извлек из GPT-4. Однако если вы попросите современную большую языковую модель ответить на вопрос, например, какой копир лучше для веб-поиска, она сгенерирует и запустит код. На самом деле существует множество различных инструментов, которые используются многими людьми для проведения анализа, сбора информации, принятия мер и повышения личной эффективности.

 

Большая часть ранних исследований в области использования инструментов пришлась на сообщество компьютерного зрения. Это связано с тем, что до появления больших языковых моделей они не могли обрабатывать изображения. Поэтому единственной возможностью было заставить большую языковую модель генерировать функцию, которая могла бы манипулировать изображениями, например, генерировать изображения или выполнять обнаружение объектов. Поэтому, если вы внимательно изучите литературу, то увидите, что многие исследования по использованию инструментов появились в области зрения, потому что до появления GPT-4, LLaVA и т. д. большие языковые модели ничего не знали об изображениях. Именно здесь использование инструментов и расширяет спектр применения больших языковых моделей.

 

Далее речь пойдет о планировании. Для тех из вас, кто еще не вникал в алгоритмы планирования, я думаю, многие будут говорить об ChatGPT Шокирующий момент, ощущение, что вы никогда не были там раньше. Я думаю, что вы, ребята, вероятно, не использовали алгоритмы планирования. Многие люди воскликнут: "Вау, я не думал, что ИИ-интеллекты способны на такое". Я проводил живые демонстрации, где, когда что-то не получалось, интеллект ИИ перепланировал путь, чтобы избежать неудачи. На самом деле, было несколько случаев, когда я был потрясен автономностью моих собственных систем ИИ.

 

Я адаптировал пример из статьи о моделях GPT, где вы можете попросить его сгенерировать изображение девочки, читающей книгу, с той же позой, что и мальчик на изображении, например example.jpeg, а затем он опишет мальчика на новом изображении. Используя существующие ИИ-интеллекты, можно решить сначала определить позу мальчика, а затем найти подходящую модель, возможно, на платформе HuggingFace, чтобы извлечь эту позу. Далее необходимо найти модель, которая бы постобработывала изображение, синтезировала фотографию девочки в соответствии с инструкциями, а затем использовала технологии преобразования изображения в текст и, наконец, текста в речь.

 

В настоящее время у нас есть целый ряд искусственных интеллектов, и хотя они не всегда надежны, иногда могут быть немного громоздкими и не всегда работают, когда они работают, результаты получаются просто потрясающими. Благодаря такому интеллектуальному дизайну цикла тела иногда удается даже восстановить прежние неудачи. Я обнаружил, что начал использовать подобные исследовательские интеллекты в своей работе, когда мне нужны какие-то исследования, но я не хочу тратить много времени на их поиск самостоятельно. Я даю задание исследовательскому интеллекту и возвращаюсь через некоторое время, чтобы посмотреть, что он нашел. Иногда он находит достоверные результаты, иногда нет. Но в любом случае это стало частью моего личного рабочего процесса.

 

Последний паттерн проектирования - "Мультиинтеллектуальное сотрудничество" (Multi-Intelligence Collaboration). Этот паттерн может показаться странным, но он работает лучше, чем вы можете подумать. Слева - скриншот из документа под названием "Chat Dev", проекта, который полностью открыт и фактически является открытым исходным кодом. Многие из вас, возможно, видели эти яркие релизы в социальных сетях под названием "Девин"Демоверсия "Chat Dev" доступна на моем ноутбуке". Chat Dev" - это пример мультиинтеллектуальной системы, в которой вы можете настроить большую языковую модель (LLM) на роль генерального директора, дизайнера, менеджера продукта или тестировщика компании, занимающейся разработкой программного обеспечения. Все, что вам нужно сделать, - это сказать LLM, что вы теперь генеральный директор, а вы - инженер-программист, и они начнут сотрудничать и вести глубокий диалог. Если вы скажете им разработать игру, например GoMoki, они потратят несколько минут на написание кода, тестирование, итерации и создание удивительно сложных программ. Это не всегда работает, и у меня была своя доля неудач, но иногда поражает, насколько хорошо это работает, и технология постоянно совершенствуется. Кроме того, еще один шаблон дизайна - это дебаты между различными интеллектами, вы можете иметь несколько различных интеллектов, например ChatGPT и Близнецы Проведение дебатов также является эффективным шаблоном для повышения производительности. Таким образом, совместная работа нескольких симулированных ИИ-интеллектов оказалась очень мощным шаблоном проектирования.

 

В целом, это те шаблоны проектирования, которые я заметил, и я думаю, что если мы сможем применить их в нашей работе, то сможем быстрее улучшить результаты ИИ. Я считаю, что паттерн проектирования Intelligent Body Reasoning станет важной разработкой.

 

Это мой заключительный слайд. Я ожидаю, что в этом году круг задач, которые может решать ИИ, значительно расширится благодаря влиянию интеллектуальных рабочих процессов в организме. Людям, возможно, трудно смириться с тем, что когда мы посылаем реплику в LLM, мы ожидаем немедленного ответа. На самом деле, в дискуссии, которую я вел в Google десять лет назад под названием "Big Box Search", мы вводили очень длинные подсказки. Я безуспешно пытался продвинуть эту идею, потому что, когда вы выполняете поиск в Интернете, вы хотите получить ответ через полсекунды, такова человеческая природа. Нам нравится мгновенная обратная связь. Но для многих интеллектуальных рабочих процессов нам нужно научиться делегировать задачи искусственному интеллекту, набраться терпения и ждать ответа несколько минут, а то и часов. Точно так же, как я вижу множество начинающих менеджеров, которые делегируют задачи, а затем проверяют их через пять минут, что неэффективно, нам нужно делать то же самое с некоторыми ИИ-интеллектами, хотя это очень сложно. Мне показалось, что я услышал смех.

Кроме того, быстрое создание жетон LLM читают и генерируют токены для себя, и возможность генерировать токены быстрее других - это здорово. Я думаю, что возможность быстро генерировать больше токенов, даже от немного менее качественных LLM, может дать хорошие результаты, в отличие от медленной генерации токенов от более качественных LLM, которая может быть не такой хорошей. Эта идея может вызвать некоторые споры, поскольку она может дать вам еще несколько поворотов в процессе, как я показал на первом слайде с результатами GPT-3 и архитектурой "умного тела".

 

Честно говоря, я с нетерпением жду этого. Клод 4, GPT-5, Gemini 2.0 и всех других замечательных моделей, находящихся в стадии разработки. Мне кажется, что если вы рассчитываете запустить свой проект на GPT-5 с нулевой выборкой, вы можете обнаружить, что, используя интеллект и умозаключения на ранних моделях, вы можете приблизиться к уровню производительности GPT-5 раньше, чем ожидалось. Я считаю, что это важная тенденция.

 

По правде говоря, путь к универсальному ИИ - это скорее путешествие, чем пункт назначения, но я думаю, что этот интеллектуальный рабочий процесс может помочь нам сделать небольшой шаг на этом очень долгом пути.

Спасибо.

© заявление об авторских правах

Похожие статьи

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...