OpenAI запускает DeepResearch - интеллектуальную систему для глубоких исследований с использованием моделей o3

Новости ИИОбновлено 1 год назад Круг обмена ИИ

59.2K 00

Вы устали искать информацию в огромных массивах и не можете найти нужные ответы? Вы мечтаете об интеллектуальном помощнике, который мог бы проводить глубокие исследования за вас, как профессиональный аналитик? OpenAI с гордостью объявляет о запуске OpenAI! ChatGPT Совершенно новая функция -Глубокое исследование! Он полностью изменит способ получения информации, позволив вам выполнять сложные исследовательские задачи, на которые в противном случае ушли бы часы, всего за несколько минут. В этой статье вы узнаете о мощных функциях глубоких исследований, сценариях применения, принципах работы и будущем направлении развития, и вместе мы станем свидетелями того, как ИИ расширяет возможности работы со знаниями и открывает новую эру интеллектуальных исследований!

Это интеллект, который с помощью рассуждений синтезирует большие объемы онлайн-информации и выполняет за вас многоэтапные исследовательские задачи, подобно Недоумение ответить пением Близнецы Недавно выпущенный OpenAI "Deep Research" использует мощную модель o3 для сбора и анализа огромного количества информации, полученной в результате веб-поиска, и в итоге создает подробный профессиональный отчет со ссылками. Эта функция привлекла широкое внимание с момента запуска и была названа "сверхмощным" помощником ИИ, предвещающим наступление новой эры исследований с помощью ИИ.

Сегодня она доступна для пользователей Pro, а затем будет доступна для пользователей Plus и Team.

В двух словах:"Deep Research" автономно проводит многоэтапные исследования сетей, за 5-30 минут выполняя сложные задачи, на которые у человека обычно уходят часы, и представляя результаты пользователю в виде высококачественного отчета.

Контрольное чтение:Google запускает программу Deep Research, иOpen Deep Research: генерирование исследований ИИ на основе содержимого веб-поиска, иSTORM: поиск данных в Интернете по темам, генерация статей с цитатами, длинные отчеты о статьях

Насколько хороши "глубокие исследования"? Давайте узнаем:

Мощный и невероятно эффективный: Попрощайтесь с ночными поисками информации! "Глубокие исследования" выводят исследования на новый уровень эффективности, позволяя завершить сложные исследования, на которые традиционно уходят часы, за 5-30 минут, при этом можно копать настолько глубоко, насколько это необходимо для проведения экспертного анализа.
Результаты надежны и хорошо документированы: Больше не нужно беспокоиться об источнике информации! Все выводы сопровождаются подробными ссылками, вплоть до соответствующего абзаца оригинальной веб-страницы или PDF-файла, что позволяет пользователям легко отследить и проверить достоверность информации, а также сделать ваше исследование более убедительным.
Широкий спектр применения, гибкость и простота в использовании: Если вам нужно провести конкурентный анализ, исследование рынка, покупку товаров или академические исследования, "Глубокие исследования" станут вашей правой рукой. Просто выберите "Глубокие исследования" в интерфейсе ChatGPT и введите запрос, чтобы начать исследование. Поддержка загрузки файлов (например, PDF) для уточнения контекста, а также просмотр хода исследования в реальном времени и цитируемых источников на боковой панели.
Технологически продвинутая и превосходная производительность: Deep Research, основанный на сквозном обучении с подкреплением, способен выполнять многоэтапные задачи просмотра и рассуждения. Он поддерживает чтение содержимого веб-сайтов, обработку данных, построение графиков и цитирование исходного текста для поддержки аргументов. В сложном эталонном тесте под названием "Последний экзамен человечества" (HLE) Deep Research показал результат 26,6%, значительно превзойдя результаты своих предшественников, включая o3-mini (13%) и o1 (9%), демонстрируя мощные возможности по поиску и интеграции информации и исследовательское поведение, близкое к человеческому.
Постепенная либерализация и многообещающее будущее: В настоящее время она доступна для пользователей Pro (100 поисков в месяц) и в течение месяца будет расширена для пользователей Plus (10 поисков в месяц), а затем появятся редакции Team и Enterprise. В будущем появится поддержка мобильных/настольных приложений, а также планируется подключение к большему количеству источников данных (как подписных, так и внутренних) для более мощной персонализации.

Эти детали также заслуживают внимания:

Чем больше инструментов вы вызовете, тем точнее будет результат: На графике видно, что с увеличением количества вызовов инструментов (Max Tool Calls) увеличивается процент прохождения Deep Research теста HLE, что указывает на положительную корреляцию между его интеллектом и способностью использовать инструменты.
Проблема галлюцинаций все еще требует доработки: Несмотря на впечатляющую производительность Deep Research, все еще существует возможность иллюзий и ошибочных рассуждений, что является ключевым направлением последующей оптимизации OpenAI.
В сочетании с оператором потенциал безграничен: В будущем OpenAI планирует перенести глубокие онлайн-исследования на реальные операции (Оператор) объединяются для достижения более мощных интеллектуальных функций тела, которые очень ожидаемы!

Полный официальный обзор DeepResearch

Сегодня мы запускаем Deep Research в ChatGPT - новую функцию агента, которая позволяет проводить многоэтапные исследования в Интернете для решения сложных задач. Он может за десятки минут сделать то, на что у человека ушли бы часы.

Deep Research - это новый интеллект OpenAI, который может работать на вас самостоятельно: вы даете ему команду, и ChatGPT находит, анализирует и обобщает сотни онлайн-источников для создания всестороннего отчета на уровне аналитика. Он работает на базе новой версии модели OpenAI o3, оптимизированной для просмотра веб-страниц и анализа данных, которая использует умозаключения для поиска, интерпретации и анализа огромного количества текста, изображений и PDF-файлов в Интернете, внося необходимые коррективы на основе полученной информации.

Способность к синтезу знаний является необходимым условием для создания новых знаний. По этой причине Deep Research является важным шагом на пути к нашей более широкой цели - созданию AGI, который, как мы давно предполагаем, будет генерировать новые научные исследования.

Причины, по которым мы проводим глубокие исследования

Deep Research создан для людей, которые занимаются наукоемкой работой в таких областях, как финансы, наука, политика и инженерия, и нуждаются в тщательных, точных и надежных исследованиях. Он также полезен для опытных покупателей, которые хотят получить гиперперсонализированный совет по покупкам, которые обычно требуют тщательного исследования, например, автомобили, бытовая техника и мебель. Каждый вывод полностью документирован с четкими цитатами и кратким изложением мыслей, что облегчает поиск и проверку информации. Это особенно эффективно при поиске нишевой, неинтуитивной информации, требующей просмотра большого количества сайтов. Deep Research высвобождает драгоценное время, позволяя разгрузить и ускорить сложные и трудоемкие веб-исследования с помощью одного запроса.

Deep Research самостоятельно обнаруживает, осмысливает и интегрирует информацию, полученную в Интернете. Для этого он использует тот же подход к обучению с подкреплением, что и OpenAI o1 (наша первая модель вывода), обученный на реальных задачах, которые требуют использования браузера и инструментов Python. Хотя o1 демонстрирует впечатляющие способности в кодировании, математике и других технических областях, многие реальные задачи требуют обширной подготовки и сбора информации из различных онлайн-источников. Углубленное исследование опирается на эти способности к рассуждениям, чтобы устранить этот пробел и позволить им решать широкий спектр проблем, с которыми люди сталкиваются на работе и в повседневной жизни.

Как использовать глубокие исследования

В ChatGPT выберите "Глубокое исследование" в редакторе сообщений и введите свой запрос. Расскажите ChatGPT, что вам нужно - будь то конкурентный анализ стриминговых платформ или индивидуальный отчет о лучших велосипедах для поездок на работу. Вы можете приложить файлы или электронные таблицы, чтобы добавить контекст к вашему вопросу. После завершения работы появится боковая панель с кратким описанием проделанных шагов и использованных источников.

Глубокие исследования могут занимать от 5 до 30 минут и требуют времени для более глубокого изучения сети. В это время вы можете отлучиться или заняться другими делами - вы получите уведомление о завершении исследования. Окончательный результат будет представлен в виде отчетов в чате - в течение следующих нескольких недель мы также добавим в эти отчеты встроенные изображения, визуализации данных и другие аналитические результаты, чтобы обеспечить дополнительную ясность и контекст.

В отличие от глубоких исследований, GPT-4o хорошо подходит для мультимодальных диалогов в режиме реального времени. Длямногогранные, специфические области, где глубина и детализация имеют решающее значениеЗапросы, глубокие исследования для всестороннего изучения и возможность привести каждое утверждение - вот разница между быстрым резюме и хорошо документированным, подтвержденным ответом (который можно использовать в качестве рабочего продукта).

OpenAI 推出 DeepResearch ，利用o3模型进行深度研究的智能体

Углубленное исследование содержит подробные ответы на вопросы, предоставляя данные по странам/территориям для 10 ведущих развитых стран и 10 ведущих развивающихся стран для удобства сравнения. На основе этой информации даются подробные, обоснованные и практические рекомендации по выходу на рынок. См. официальный пример: https://openai.com/index/introducing-deep-research/

Принцип работы

Deep Research обучается с помощью сквозного обучения с подкреплением на сложных задачах просмотра и рассуждения в различных областях. В ходе этого обучения модель научилась планировать и выполнять многошаговые траектории для поиска необходимых данных, а также возвращаться назад и реагировать на информацию в реальном времени, когда это необходимо. Модель также умеет просматривать файлы, загруженные пользователями, рисовать и итерировать графики с помощью инструментов python, вставлять в свои ответы сгенерированные графики и изображения с веб-сайтов, а также цитировать конкретные предложения или абзацы из своих источников. В результате такой подготовки модель достигла новых высот во многих публичных оценках, ориентированных на решение реальных задач.

Последний экзамен человечества

существовать Последний экзамен человечества (открывается в новом окне)(недавно выпущенный тест, который проверяет ИИ по широкому кругу тем на экспертном уровне), модель, созданная на базе Deep Research, показала новый высокий результат с точностью 26,6%. Тест содержит более 3 000 вопросов с несколькими вариантами ответов и короткими ответами, охватывающих более 100 тем, от лингвистики до ракетостроения и от классики до экологии. Наибольшие улучшения по сравнению с OpenAI o1 произошли в химии, гуманитарных и социальных науках, а также математике. Модели, поддерживающие глубокие исследования, демонстрируют человекоподобный подход к эффективному поиску специализированной информации в случае необходимости.

моделирование	Точность (%)
GPT-4o	3.3
Грок-2	3.8
Клод 3.5 Сонет	4.3
Близнецовое мышление	6.2
OpenAI o1	9.1
DeepSeek-R1*	9.4
OpenAI o3-mini (средний)*	10.5
OpenAI o3-mini (высокий)*	13.0
Глубокое исследование OpenAI**.	26.6

Модель не является мультимодальной и оценивается только на текстовом подмножестве.
Использование инструмента browse + python

GAIA

существовать GAIA (открывается в новом окне) (общедоступный эталон для оценки ИИ в реальных задачах) достиг нового современного уровня (SOTA) для моделей, поддерживающих глубокие исследования во внешних Таблица лидеров (открывается в новом окне) Лучшие в списке. Содержит вопросы трех уровней сложности, для успешного выполнения которых требуются способности к рассуждению, мультимодальной беглости, просмотру веб-страниц и владению инструментами.

Примеры заданий GAIA

Смотрите официальный пример: https://openai.com/index/introducing-deep-research/

Миссии экспертного уровня

В ходе внутренней оценки серии заданий на уровне экспертов по доменам, углубленные исследования были оценены экспертами по доменам как автоматизированные часы сложных ручных исследований.

Процент прохождения и максимальное количество вызовов инструмента

Чем больше модель просматривает и думает о том, что она просматривает, тем лучше она работает, поэтому важно дать ей время подумать.

Пример задания экспертного уровня

Смотрите официальный пример: https://openai.com/index/introducing-deep-research/

Расчетная экономическая ценность задачи больше коррелирует с показателем прохождения, чем с количеством часов, потраченных человеком - то, что модель считает сложным, отличается от того, что человек считает трудоемким.

ограничения

Deep Research открыла важные новые возможности, но она все еще находится на ранней стадии и имеет свои ограничения. Согласно внутренним оценкам, он может иногда выдавать фантомные факты или делать неверные выводы в ответах, хотя и на гораздо более низком уровне, чем существующие модели ChatGPT. Она может с трудом отличать авторитетную информацию от слухов и в настоящее время демонстрирует недостатки в калибровке уверенности, часто не позволяя точно передать неопределенность. На момент публикации в отчетах и цитатах могут присутствовать незначительные ошибки форматирования, а выполнение заданий может занимать больше времени. Мы ожидаем, что все эти проблемы быстро улучшатся с ростом использования и с течением времени.

интервью

Глубокие исследования в ChatGPT в настоящее время требуют очень больших вычислительных мощностей. Чем дольше длится исследовательский запрос, тем больше требуется вычислений для вывода. Сегодня мы начнем с вычислений, необходимых для запроса, направленного на Профессиональные пользователиОптимизированная версия - до 100 запросов в месяц.Пользователи Plus и TeamСледующим будет доступ, а затем пользователи корпоративного уровня. Мы все еще работаем над предоставлением доступа пользователям из Великобритании, Швейцарии и стран ЕЭЗ.

Более высокие тарифные лимиты скоро станут доступны всем платным подписчикам, когда мы выпустим более быструю и экономичную версию углубленного исследования с использованием более компактных моделей, которые по-прежнему обеспечивают высокое качество результатов.

В течение следующих нескольких недель и месяцев мы будем работать над нашей технической инфраструктурой, внимательно следить за текущими релизами и проводить более тщательное тестирование. Это соответствует нашему принципу итеративного развертывания. Если все проверки безопасности будут соответствовать нашим критериям, мы планируем выпустить углубленное исследование для пользователей Plus примерно через месяц.

план последующих действий

Deep Research уже сегодня доступен в сети ChatGPT и в течение месяца будет распространен на мобильные и настольные приложения. В настоящее время Deep Research имеет доступ к открытому веб-ресурсу и любым загруженным файлам. В будущем вы сможете подключаться к более специализированным источникам данных, расширяя их доступ к подписке или внутренним ресурсам, чтобы сделать их результаты более мощными и персонализированными.

В будущем мы планируем объединить опыт Агента в ChatGPT для проведения асинхронных, аутентичных исследований и разработок. Сочетание Deep Research, где можно проводить асинхронные онлайн-опросы, и Operator, где можно выполнять реальные действия, позволит ChatGPT выполнять для вас все более сложные задачи.