DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

Последние ресурсы по искусственному интеллектуОпубликовано 4 месяца назад Круг обмена ИИ

32.1K 00

Что такое DeepSearchQA

DeepSearchQA - это эталонный тест Google для исследования агентов ИИ с открытым исходным кодом, специально разработанный для оценки производительности интеллекта в сложных многоэтапных задачах запроса. Он состоит из 900 вручную разработанных заданий типа "причинно-следственная цепочка", охватывающих 17 областей, требующих от ИИ генерировать полные ответы путем многоэтапных рассуждений, подобно человеческим исследователям. В контрольных заданиях акцент делается на полноте, а не на точности, и измеряется объем памяти и эффективность мышления ИИ. В настоящее время DeepSearchQA применяется для оценки производительности Gemini Deep Research Agent, и последняя версия набрала 46,4%, что лучше, чем GPT-5 Pro. Разработчики могут получить открытый исходный код для участия в конкурсе через платформу Kaggle.

Функциональные возможности DeepSearchQA

Разработка сложных и сквозных миссий Задание состоит из 900 вручную разработанных задач "причинно-следственной цепочки", охватывающих 17 областей, каждый этап которых основан на анализе предшественников и требует от интеллекта генерировать исчерпывающий набор ответов, таким образом измеряя точность их исследования и полноту поиска.
Комплексная оценка : В отличие от традиционных тестов, основанных на фактах, DeepSearchQA в большей степени ориентирован на оценку полноты знаний интеллекта в многоэтапных сложных заданиях на поиск информации, и способен проверить способность интеллекта к запоминанию информации.
Диагностический инструмент как преимущество "времени на размышление" Внутренние тесты Google показали, что производительность интеллекта значительно повышается, когда ему позволяют выполнять больше шагов поиска и рассуждений, и DeepSearchQA можно использовать в качестве инструмента для измерения преимуществ "времени на размышление".
открытый исходный код : Набор данных и инструменты имеют открытый исходный код, и разработчики могут получить доступ к набору данных, таблице лидеров и примерам Colab, а также прочитать технический отчет по набору данных.

Основные преимущества DeepSearchQA

Сложные и междисциплинарные мандаты Содержит 900 вручную разработанных заданий "причинно-следственной цепи" в 17 областях, каждое из которых опирается на анализ предшествующих факторов для всесторонней оценки эффективности интеллекта в сложных многоэтапных исследовательских задачах.
Измерение полноты охвата В отличие от традиционных тестов, основанных на фактах, DeepSearchQA требует от интеллекта генерировать исчерпывающие наборы ответов, которые не только оценивают точность исследования, но и измеряют запоминаемость извлечения информации, что более соответствует реальным исследовательским потребностям.
Диагностируемое пособие "часы размышлений" Внутренняя оценка Google показала, что, когда интеллекту разрешается выполнять больше шагов поиска и рассуждений, его производительность значительно повышается, и DeepSearchQA можно использовать как инструмент для измерения эффективности "времени на размышление".

Какой официальный сайт у DeepSearchQA?

Веб-сайт проекта:: https://blog.google/technology/developers/deep-research-agent-gemini-api/
адрес с открытым исходным кодом:: https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
Технические документы:: https://storage.googleapis.com/deepmind-media/DeepSearchQA/DeepSearchQA_benchmark_paper.pdf

Для кого предназначена DeepSearchQA?

Инженер по машинному обучению : Оптимизация модели с помощью бенчмаркинга для улучшения полноты и точности определения интеллекта в многоэтапных сложных задачах поиска и разработки более эффективных инструментов исследования.
эксперт по обработке естественного языка (NLP) : Дальнейшее улучшение производительности моделей обработки естественного языка путем проверки способности интеллектов понимать и выполнять инструкции на естественном языке с помощью DeepSearchQA.
специалист по анализу данных : Анализ данных и обучение моделей с использованием наборов данных и инструментов DeepSearchQA для изучения потенциала интеллекта для применения в различных областях.
Разработчики в смежных областях Ресурсы и инструменты DeepSearchQA с открытым исходным кодом могут быть использованы для разработки и оптимизации интеллекта для различных сценариев, требующих сложного поиска и анализа информации.

Последние ресурсы по искусственному интеллекту

Авторское право на статью Круг обмена ИИ Пожалуйста, не воспроизводите без разрешения.

Srcbook: инженеры по ИИ с открытым исходным кодом, которые быстро создают и итерируют полные проекты на TypeScript

Последние ресурсы по искусственному интеллекту # AI Java Open Source Projecct # Программирование искусственного интеллекта

1 год назад

060.6K

MD2Card: превратите документы Markdown в красивые картинки!

Последние ресурсы по искусственному интеллекту Помощники # PROMPTS

1 год назад

075.1K

KreadoAI: Платформа для создания видео с участием цифрового человека|Клон цифрового человека|Модельное одевание

Последние ресурсы по искусственному интеллекту # AI Обмен лицами и переодевание # AI Digital Man

2 года назад

051.8K

DeepPiano - приложение для фортепиано с искусственным интеллектом от Smartquote Technology

Последние ресурсы по искусственному интеллекту

10 месяцев назад

068.9K

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!

Войти сейчас

Нет комментариев...

DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

Что такое DeepSearchQA

Функциональные возможности DeepSearchQA

Основные преимущества DeepSearchQA

Какой официальный сайт у DeepSearchQA?

Для кого предназначена DeepSearchQA?

Claude-Mem - плагин памяти кода Claude с открытым исходным кодом и поддержкой кросс-сессионной постоянной памяти

SCAIL - открытый фреймворк для создания анимационных персонажей для кино и телевидения от Wisdom spectrum и Tsinghua.

Похожие статьи

Srcbook: инженеры по ИИ с открытым исходным кодом, которые быстро создают и итерируют полные проекты на TypeScript

MD2Card: превратите документы Markdown в красивые картинки!

KreadoAI: Платформа для создания видео с участием цифрового человека|Клон цифрового человека|Модельное одевание

DeepPiano - приложение для фортепиано с искусственным интеллектом от Smartquote Technology

Нет комментариев

Последние коллекции

Последние статьи

DeepSearchQA - эталоны тестирования агентов ИИ с открытым исходным кодом от Google

Что такое DeepSearchQA

Функциональные возможности DeepSearchQA

Основные преимущества DeepSearchQA

Какой официальный сайт у DeepSearchQA?

Для кого предназначена DeepSearchQA?

Claude-Mem - плагин памяти кода Claude с открытым исходным кодом и поддержкой кросс-сессионной постоянной памяти

SCAIL - открытый фреймворк для создания анимационных персонажей для кино и телевидения от Wisdom spectrum и Tsinghua.

Похожие статьи

Srcbook: инженеры по ИИ с открытым исходным кодом, которые быстро создают и итерируют полные проекты на TypeScript

MD2Card: превратите документы Markdown в красивые картинки!

KreadoAI: Платформа для создания видео с участием цифрового человека|Клон цифрового человека|Модельное одевание

DeepPiano - приложение для фортепиано с искусственным интеллектом от Smartquote Technology

Нет комментариев

Избранные инструменты искусственного интеллекта

Последние коллекции

Последние статьи