DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google
Что такое DeepSearchQA
DeepSearchQA - это эталонный тест Google для исследования агентов ИИ с открытым исходным кодом, специально разработанный для оценки производительности интеллекта в сложных многоэтапных задачах запроса. Он состоит из 900 вручную разработанных заданий типа "причинно-следственная цепочка", охватывающих 17 областей, требующих от ИИ генерировать полные ответы путем многоэтапных рассуждений, подобно человеческим исследователям. В контрольных заданиях акцент делается на полноте, а не на точности, и измеряется объем памяти и эффективность мышления ИИ. В настоящее время DeepSearchQA применяется для оценки производительности Gemini Deep Research Agent, и последняя версия набрала 46,4%, что лучше, чем GPT-5 Pro. Разработчики могут получить открытый исходный код для участия в конкурсе через платформу Kaggle.

Функциональные возможности DeepSearchQA
- Разработка сложных и сквозных миссий Задание состоит из 900 вручную разработанных задач "причинно-следственной цепочки", охватывающих 17 областей, каждый этап которых основан на анализе предшественников и требует от интеллекта генерировать исчерпывающий набор ответов, таким образом измеряя точность их исследования и полноту поиска.
- Комплексная оценка : В отличие от традиционных тестов, основанных на фактах, DeepSearchQA в большей степени ориентирован на оценку полноты знаний интеллекта в многоэтапных сложных заданиях на поиск информации, и способен проверить способность интеллекта к запоминанию информации.
- Диагностический инструмент как преимущество "времени на размышление" Внутренние тесты Google показали, что производительность интеллекта значительно повышается, когда ему позволяют выполнять больше шагов поиска и рассуждений, и DeepSearchQA можно использовать в качестве инструмента для измерения преимуществ "времени на размышление".
- открытый исходный код : Набор данных и инструменты имеют открытый исходный код, и разработчики могут получить доступ к набору данных, таблице лидеров и примерам Colab, а также прочитать технический отчет по набору данных.
Основные преимущества DeepSearchQA
- Сложные и междисциплинарные мандаты Содержит 900 вручную разработанных заданий "причинно-следственной цепи" в 17 областях, каждое из которых опирается на анализ предшествующих факторов для всесторонней оценки эффективности интеллекта в сложных многоэтапных исследовательских задачах.
- Измерение полноты охвата В отличие от традиционных тестов, основанных на фактах, DeepSearchQA требует от интеллекта генерировать исчерпывающие наборы ответов, которые не только оценивают точность исследования, но и измеряют запоминаемость извлечения информации, что более соответствует реальным исследовательским потребностям.
- Диагностируемое пособие "часы размышлений" Внутренняя оценка Google показала, что, когда интеллекту разрешается выполнять больше шагов поиска и рассуждений, его производительность значительно повышается, и DeepSearchQA можно использовать как инструмент для измерения эффективности "времени на размышление".
Какой официальный сайт у DeepSearchQA?
- Веб-сайт проекта:: https://blog.google/technology/developers/deep-research-agent-gemini-api/
- адрес с открытым исходным кодом:: https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
- Технические документы:: https://storage.googleapis.com/deepmind-media/DeepSearchQA/DeepSearchQA_benchmark_paper.pdf
Для кого предназначена DeepSearchQA?
- Инженер по машинному обучению : Оптимизация модели с помощью бенчмаркинга для улучшения полноты и точности определения интеллекта в многоэтапных сложных задачах поиска и разработки более эффективных инструментов исследования.
- эксперт по обработке естественного языка (NLP) : Дальнейшее улучшение производительности моделей обработки естественного языка путем проверки способности интеллектов понимать и выполнять инструкции на естественном языке с помощью DeepSearchQA.
- специалист по анализу данных : Анализ данных и обучение моделей с использованием наборов данных и инструментов DeepSearchQA для изучения потенциала интеллекта для применения в различных областях.
- Разработчики в смежных областях Ресурсы и инструменты DeepSearchQA с открытым исходным кодом могут быть использованы для разработки и оптимизации интеллекта для различных сценариев, требующих сложного поиска и анализа информации.
© заявление об авторских правах
Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.
Похожие статьи
Нет комментариев...




