BrowseComp: OpenAI запускает новый бенчмарк для оценки возможностей сетей ИИ по поиску информации
Недавно компания OpenAI выпустила проект под названием BrowseComp новый эталонный тест, предназначенный для оценки способности агентов ИИ ориентироваться в Интернете. Тест состоит из 1266 вопросов, охватывающих широкий спектр областей, от научных открытий до поп-культуры, и требует от агента настойчиво перемещаться по открытой веб-среде в поисках ответов, которые трудно найти и которые переплетаются с информацией.
Рисунок 1. Производительность BrowseComp ранней версии OpenAI Deep Research при различных усилиях просмотра. Точность плавно повышается по мере увеличения объема вычислений на момент тестирования.
Существующие бенчмарки "насыщены", и для этой цели был разработан BrowseComp.
В настоящее время некоторые популярные бенчмарки, такие как SimpleQA, ориентированы на способность модели извлекать отдельные простые факты. Для продвинутых моделей, таких как GPT-4o, оснащенных инструментами просмотра, такие задачи становятся слишком простыми и приближаются к насыщению производительности. Это означает, что такие бенчмарки, как SimpleQA, уже неэффективны для определения истинных возможностей моделей при работе с более сложной информацией, для поиска которой требуется глубокое исследование сети.
Именно для устранения этого пробела OpenAI разработала BrowseComp (что означает "соревнование по поиску информации"). Эталон состоит из 1 266 сложных вопросов и призван оценить способность агентов ИИ находить вопросы, которые трудно найти, которые содержат переплетенные информационные точки и для ответа на которые может потребоваться посещение десятков или даже сотен веб-сайтов. Команда разместила эталон на сайте OpenAI Репозиторий GitHub с простыми эвалюациямии предоставляет подробнуюИсследовательские работы.
Концепция дизайна BrowseComp
Изначально BrowseComp был разработан, чтобы заполнить пробел в существующих эталонных тестах. Хотя в прошлом существовал целый ряд эталонов для оценки возможностей информационного поиска, большинство из них основывались на относительно простых вопросах, которые легко решаются существующими языковыми моделями, а BrowseComp ориентирован на сложные вопросы, требующие глубокого поиска и творческого подхода для нахождения ответов.
Вот некоторые примеры выпусков BrowseComp:
- Примерный вопрос 1: В период с 1990 по 1994 год какие футбольные команды играли в матчах с бразильскими судьями, в которых было четыре желтые карточки (по две для каждой команды), три из которых были выданы во втором тайме, и четыре замены были сделаны во время матча, одна из которых была связана с травмой в первые 25 минут матча?
- справочный ответ: Ирландия - Румыния
- Примеры вопросов 2:: Назовите вымышленного персонажа, который иногда ломает четвертую стену, чтобы пообщаться с аудиторией, известен своим юмором и имеет телевизионную программу, которая выходила в эфир с 1960-х по 1980-е годы и насчитывала менее 50 эпизодов.
- справочный ответ: Пластиковый человек
- Примеры вопросов 3: Пожалуйста, укажите название научной статьи, представленной на конференции EMNLP в период с 2018 по 2023 год, в которой первый автор получил степень бакалавра в Дартмутском колледже, а четвертый автор - степень бакалавра в Пенсильванском университете.
- справочный ответ:: Основы хлебопечения: наука о хлебе
Уникальные особенности BrowseComp
- вызовЗадачи BrowseComp тщательно разрабатываются, чтобы существующие модели не могли быть решены за короткий промежуток времени. Тренеры-люди проводят несколько раундов проверки при создании задач, чтобы убедиться в их сложности. Ниже приведены некоторые критерии, используемые для оценки сложности задач:
- Не решается существующими моделямиТренерам было предложено проверить, что GPT-4o (с просмотром и без), OpenAI o1 и более ранние версии модели глубокого исследования не решают эти проблемы.
- Недоступно в результатах поиска:: Тренеров попросили выполнить пять простых поисковых запросов в Google и проверить, что ответы не находятся на первых нескольких страницах результатов поиска.
- Люди не могут решить эту проблему за десять минут.:: Тренеров попросили составить задачи, которые были бы настолько сложными, что другой человек не смог бы решить их за десять минут. Для некоторых задач второй тренер пытался найти ответ. Тренеров, создавших задачи, которые были решены более чем за 40%, попросили пересмотреть свои задачи.
Рисунок 2: Распределение тем в BrowseComp. Распределение тем в BrowseComp определяется подсказками ChatGPT Модель классифицировала темы каждого вопроса задним числом. - Легко проверить:: Несмотря на сложность вопросов, ответы на них обычно короткие и ясные, их легко проверить по справочным материалам. Такой дизайн делает бенчмаркинг сложным, но несправедливым.
- пестролистность:: Вопросы BrowseComp охватывают широкий спектр областей, включая телевидение и кино, науку и технику, искусство, историю, спорт, музыку, видеоигры, географию и политику. Такое разнообразие обеспечивает всесторонний характер тестов.
Оценка эффективности модели
Тесты BrowseComp показали, что эффективность существующих моделей неоднозначна:
- GPT-4o ответить пением GPT-4.5 Без функции просмотра точность близка к нулю. Даже при включенной функции просмотра точность GPT-4o повышается только с 0,6% до 1,9%, что говорит о том, что одной функции просмотра недостаточно для решения сложных задач.
- OpenAI o1 Модель не имеет функции просмотра, но достигает точности 9,91 TP3T благодаря сильной способности к рассуждениям, что говорит о том, что некоторые ответы могут быть получены с помощью рассуждений на основе внутренних знаний.
- Глубокие исследования OpenAI Модель показала наивысший результат с точностью 51,51 TP3T. Модель автономно ищет в сети, оценивая и синтезируя информацию из множества источников и адаптируя свою стратегию поиска, что позволяет ей решать задачи, которые иначе решить невозможно.
глубокий анализ
1. ошибки калибровки
Хотя модель Deep Research демонстрирует хорошие показатели точности, она имеет высокую ошибку калибровки. Это означает, что модели не хватает точной оценки собственной неопределенности, когда она уверенно дает неверные ответы. Это явление особенно заметно в моделях с возможностью просмотра веб-страниц, что говорит о том, что доступ к веб-инструментам может повысить уверенность модели в неправильных ответах.
Рисунок 3: Гистограмма, показывающая, сколько времени требуется человеку, чтобы решить задачу BrowseComp или сдаться. Тренерам разрешалось сдаваться только после того, как они пытались решить задачу в течение не менее двух часов.
2. Влияние вычислительных ресурсов
Результаты тестирования показывают, что производительность модели постепенно улучшается по мере увеличения вычислительных ресурсов на момент тестирования. Это говорит о том, что задачи BrowseComp требуют значительных усилий по поиску и рассуждениям, и увеличение вычислительных ресурсов может значительно повысить производительность модели.
Рисунок 4: Производительность BrowseComp для Deep Research при использовании параллельной выборки и голосования на основе доверия. Дополнительные вычислительные усилия еще больше повышают производительность модели при использовании Best-of-N.
3. Стратегии агрегации
Производительность модели может быть улучшена путем многократных попыток и использования различных стратегий агрегирования (например, голосования по большинству голосов, взвешенного голосования и выбора лучшего варианта) 15% - 25%. где стратегия выбора лучшего варианта работает лучше всего, что указывает на высокую точность модели Deep Research в определении правильного ответа.
вынести вердикт
Выпуск BrowseComp открывает новое измерение в оценке агентов ИИ. Он не только проверяет способность модели к поиску информации, но и проверяет ее настойчивость и творческий подход к решению сложных задач. Хотя производительность существующих моделей в BrowseComp все еще нуждается в улучшении, выпуск этого эталонного теста, несомненно, продвинет исследования в области ИИ.
В будущем, по мере привлечения большего количества моделей и развития технологий, мы можем ожидать, что производительность ИИ-агентов на BrowseComp будет улучшаться, что в конечном итоге приведет к созданию более надежных и заслуживающих доверия ИИ-агентов.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...