DeepSearchQA: pruebas de referencia de código abierto de Google para agentes de investigación de IA

堆友AI

Qué es DeepSearchQA

DeepSearchQA es la prueba de referencia de código abierto de Google para agentes de investigación de IA, diseñada específicamente para evaluar el rendimiento de las inteligencias en tareas de consulta complejas de varios pasos. Consta de 900 tareas de "cadena causal" diseñadas a mano que abarcan 17 dominios y exigen a la IA que genere respuestas completas mediante razonamientos de varios pasos al igual que los investigadores humanos. Las pruebas hacen hincapié en la exhaustividad más que en la precisión pura, y miden la capacidad de memoria y la eficiencia de pensamiento de la IA. Actualmente, DeepSearchQA se ha aplicado a la evaluación del rendimiento de Gemini Deep Research Agent, y la última versión obtuvo una puntuación de 46,4% en el punto de referencia, mejor que GPT-5 Pro. Los desarrolladores pueden obtener el código fuente abierto para participar en la competición a través de la plataforma Kaggle.

DeepSearchQA - 谷歌开源的AI研究Agent测试基准

Funciones de DeepSearchQA

  • Diseño de misiones complejas y transversales La tarea consiste en 900 tareas de "cadena causal" diseñadas a mano que abarcan 17 dominios, cada uno de cuyos pasos se basa en análisis de antecedentes y requiere que las inteligencias generen un conjunto exhaustivo de respuestas, midiendo así la precisión de su investigación y la exhaustividad de su recuperación.
  • Evaluación exhaustiva DeepSearchQA: A diferencia de las pruebas tradicionales basadas en hechos, DeepSearchQA se centra más en la evaluación de la exhaustividad de un inteligente en una tarea de recuperación compleja de varios pasos, y es capaz de probar la capacidad de memoria de recuperación de un inteligente.
  • Herramienta de diagnóstico como beneficio del "tiempo de reflexión" Las pruebas internas de Google han demostrado que el rendimiento de la inteligencia mejora significativamente cuando se le permite realizar más pasos de búsqueda y razonamiento, y DeepSearchQA puede utilizarse como herramienta para medir los beneficios del "tiempo de pensamiento".
  • código abierto El conjunto de datos y las herramientas son de código abierto, y los desarrolladores pueden acceder al conjunto de datos, a la tabla de clasificación y a los ejemplos de Colab, así como leer el informe técnico del conjunto de datos.

Principales ventajas de DeepSearchQA

  • Mandatos complejos y transversales Contiene 900 tareas de "cadena causal" diseñadas a mano en 17 ámbitos, cada una de las cuales se basa en análisis de antecedentes para evaluar exhaustivamente el rendimiento de las inteligencias en tareas de investigación complejas de varios pasos.
  • Medir la exhaustividad A diferencia de las pruebas tradicionales basadas en hechos, DeepSearchQA requiere inteligencias para generar conjuntos de respuestas exhaustivos que no sólo evalúan la precisión de la investigación, sino que también miden la memorabilidad de la recuperación, más relevante para las necesidades de investigación del mundo real.
  • Prestación "horas de reflexión" diagnosticables La evaluación interna de Google descubrió que cuando se permite a las inteligencias realizar más pasos de búsqueda y razonamiento, su rendimiento mejora significativamente, y DeepSearchQA puede utilizarse como herramienta para medir la eficiencia del "tiempo de pensamiento".

¿Cuál es el sitio web oficial de DeepSearchQA?

  • Página web del proyecto:: https://blog.google/technology/developers/deep-research-agent-gemini-api/
  • dirección de código abierto:: https://www.kaggle.com/benchmarks/google/dsqa/leaderboard
  • Documentos técnicos:: https://storage.googleapis.com/deepmind-media/DeepSearchQA/DeepSearchQA_benchmark_paper.pdf

¿A quién va dirigido DeepSearchQA?

  • Ingeniero de aprendizaje automático Optimizar el modelo con la ayuda de esta evaluación comparativa para mejorar la exhaustividad y la precisión de las inteligencias en tareas de recuperación complejas de varios pasos y desarrollar herramientas de investigación más eficaces.
  • experto en procesamiento del lenguaje natural (PLN) El objetivo es mejorar el rendimiento de los modelos de procesamiento del lenguaje natural poniendo a prueba la capacidad de las inteligencias para comprender y ejecutar instrucciones en lenguaje natural a través de DeepSearchQA.
  • científico de datos Análisis de datos y entrenamiento de modelos utilizando los conjuntos de datos y herramientas de DeepSearchQA para explorar el potencial de las inteligencias para aplicaciones en diferentes dominios.
  • Desarrolladores en campos afines : Los recursos y herramientas de código abierto de DeepSearchQA pueden utilizarse para desarrollar y optimizar inteligencias para una variedad de escenarios que requieren recuperación y análisis de información compleja.
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...