Concurso para ayudantes de investigación en IA: revisión en profundidad y guía de selección de cinco herramientas principales

Noticias AIPublicado hace 11 meses Círculo de intercambio de inteligencia artificial

76.5K 00

El auge de los asistentes de investigación con IA: ¿quién puede ayudarte realmente a hacer los deberes?

La investigación en la era de la información a menudo implica abrirse paso entre enormes cantidades de datos. En el pasado, los investigadores tenían que buscar, cribar y organizar manualmente la información antes de transmitir los contenidos clave a personas como ChatGPT Se analizan modelos lingüísticos tan grandes. Pero con el lanzamiento de la función Deep Research de OpenAI, las cosas empiezan a cambiar. Estas nuevas herramientas de IA prometen automatizar todo el proceso de investigación: el usuario simplemente formula una pregunta, y la IA busca de forma autónoma en la web, analiza los datos y genera un informe con citas. Para ello se utilizan a menudo modelos avanzados de big-language, como el o3 de OpenAI, que no sólo utilizan conocimientos preformados, sino que también adquieren información actualizada de forma proactiva y realizan razonamientos en varios pasos.

Desde marzo, varias empresas han lanzado sus propias herramientas de investigación automatizada o agentes de IA (Agents), a menudo denominados "asistentes de búsqueda de IA" o herramientas de "investigación profunda". El concepto básico de estas herramientas es similar: aprovechar las potentes capacidades de modelización de la IA, combinadas con la búsqueda web, para realizar de forma autónoma tareas de investigación y ofrecer resultados.

Este artículo examina algunos de estos productos de gran prestigio en el mercado, con el objetivo de explorar sus diferencias de rendimiento, los límites de sus capacidades y los mejores escenarios para cada uno a través de una prueba en el mundo real. Las herramientas que intervienen en esta comparación son:

Búsqueda profunda Geminibasado en Google Géminis Serie de modelos que hacen hincapié en la capacidad de síntesis y análisis de la información.
Búsqueda profunda Grok 3Utilización de xAI Grok 3 Modelo diseñado para realizar tareas de forma autónoma, posiblemente con una mayor atención a la información en tiempo real.
Manusun sistema que admita una amplia gama de modelos de IA (por ejemplo Antrópico (utilizado como expresión nominal) Claude y Qwen de Ali), plataformas conocidas por realizar tareas de varios pasos.
Mita AI Investigación superficial: Combinando su modelo R1 con un desensamblaje del marco lógico, y utilizando su propio modelo para realizar la búsqueda y la integración web.
Zhipu AutoGLM: Basado en el gran modelo de lenguaje de Zhipu AI, controla de forma autónoma los dispositivos digitales de recogida y procesamiento de información simulando las operaciones del usuario a través de una interfaz gráfica de usuario (GUI).

Para comprender el rendimiento real de estas herramientas, presentamos la misma tarea de investigación relativamente compleja a los cinco productos.

Pruebas comparativas: generación de estudios de modelos de IA

Requisitos de la misión:

Entregue un trabajo de investigación de aproximadamente 5.000 palabras sobre modelización de IA basado en el siguiente esquema:

Visión general de los grandes modelos lingüísticos contemporáneos (por ejemplo, la familia GPT, Claude, LLaMA, DeepSeek, etc.)
Comparación de las características y escenarios de aplicación de cada modelo
Análisis de los límites y limitaciones de la capacidad del modelo
Estrategias de selección de modelos de código abierto frente a código cerrado
Tutorial sobre los fundamentos de la API de modelos
Explicación concisa de los principios de la tecnología Big Model

Implantación:

Gemini Deep Search: tarda 8 minutos en buscar en más de 300 páginas web.
Grok 3 Deep Search: Tardó 6 minutos en buscar en más de 160 páginas web.
Manus: Tardó 21 minutos e informó de 8 subtareas realizadas.
Mita AI Investigación superficial: 7 minutos para buscar en más de 300 páginas web.
Zhipu AutoGLM: Tardó 16 minutos en buscar en 71 páginas web.

Notas: El tiempo de espera y el volumen de búsqueda son sólo datos de referencia para esta prueba, y el rendimiento real puede variar en función de la complejidad de la tarea, las condiciones de la red y la carga del servidor.

Resumen de respuestas para cada herramienta:

AI 研究助理大比拼：五款主流工具深度测评与选择指南
(Las imágenes muestran algunas de las capturas de pantalla o resúmenes de los informes generados por cada herramienta)

Evaluación independiente: revisión en profundidad por Claude 3.7

Para obtener una perspectiva relativamente objetiva de terceros, sometimos los cinco informes generados al modelo Claude 3.7 de Anthropic para su evaluación. A continuación se presenta un resumen de la evaluación de Claude 3.7 de cada informe:

Zhipu AutoGLM
El informe intenta imitar el formato de un documento académico citando 71 referencias, pero resulta bastante vacío. El lenguaje es excesivamente académico, como si el informe utilizara la retórica para encubrir la falta de sustancia. El análisis de los puntos fuertes y débiles del modelo es como repetir la descripción de un producto y carece de profundidad.

Manus
El informe se va al otro extremo, simplificando en exceso cuestiones técnicas complejas en nombre de "los responsables políticos" y convirtiendo los análisis en profundidad en superficiales textos de marketing. Como un libro infantil de física cuántica, no es ni profundo ni preciso.

Búsqueda profunda Gemini
El informe adopta un estilo de redacción académico, pero las extensas comillas interfieren en la fluidez de la lectura. Es largo y ocupa demasiado espacio explicando conceptos sencillos sin añadir información sustantiva. El informe, que pretende dirigirse a un público no técnico, está lleno de jerga inexplicable y no cumple sus objetivos.

Búsqueda profunda Grok 3
La disponibilidad de versiones concisa y detallada es una característica, pero también expone problemas de coherencia en el contenido. La versión concisa está demasiado simplificada, y algunas de las proyecciones de la versión detallada (por ejemplo, para 2025) son un tanto especulativas, ya que carecen de una base argumental suficiente y de los supuestos necesarios para ser enunciadas.

Mita AI Investigación superficial
El amplio uso de tablas para estructurar la información mejora la eficacia de la adquisición de información, pero la excesiva dependencia de tablas y delimitadores conduce a una presentación mecanizada del contenido que carece de coherencia narrativa y profundidad. Las explicaciones técnicas no están suficientemente vinculadas a escenarios de aplicación práctica, y los análisis de costes empresariales carecen de consideraciones diferenciadas para empresas de distintos tamaños, lo que hace que las recomendaciones parezcan "de talla única".

Observaciones generales sobre la cláusula 3.7:
Estos cinco informes intentan utilizar diferentes "envoltorios" para encubrir las deficiencias de contenido. Ya sean académicos, comerciales o técnicos, parece que no han tocado lo esencial: una comprensión profunda de la naturaleza de la tecnología y una reflexión profunda sobre las aplicaciones prácticas. Por ejemplo, el informe DeepSeek El exceso de atención puede reflejar la búsqueda generalizada de nuevas tecnologías por parte del sector, mientras que restar importancia a cuestiones clave como la privacidad de los datos y el cumplimiento ético revela las limitaciones de las perspectivas analíticas. Un buen informe de investigación tecnológica debe aportar ideas y análisis pragmáticos en lugar de jugar con las palabras. En este sentido, los cinco informes son mejorables.

Rendimiento global y puntuación

Basándose en la evaluación de la cláusula 3.7 y en un examen directo del contenido del informe, es posible hacer una valoración global del rendimiento de las herramientas en esta prueba:

AI 研究助理大比拼：五款主流工具深度测评与选择指南
(La imagen muestra una tabla de puntuación exhaustiva basada en los resultados de la prueba)

Búsqueda profunda GeminiSus puntos fuertes son unos contenidos mejor organizados, una amplia cobertura y un soporte multilingüe.
Mita AI Investigación superficial: La interpretación es completa y equilibrada, con una buena combinación entre profundidad técnica y legibilidad.
Búsqueda profunda Grok 3: Estilo lingüístico flexible (versión dual) y fuerte orientación pragmática.
Zhipu AutoGLMEl contenido técnico es muy preciso, pero la legibilidad es limitada para los no especialistas.
Manus: El informe es conciso y fácil de entender, pero a costa de la profundidad del análisis.

Cómo elegir: sugerencias de uso en diferentes escenarios

A partir de esta prueba y de las características de cada herramienta, he aquí algunas sugerencias para la selección:

Resumen de las funciones de búsqueda:

Búsqueda profunda Gemini: La búsqueda es amplia y buena para integrar recursos multilingües globales, pero puede no ser tan buena como los productos localizados para comprender en profundidad los contenidos chinos.
Búsqueda profunda Grok 3: Muy en tiempo real, sobre todo en información empresarial y noticias, pero con una profundidad relativamente escasa en contenidos técnicos.
Zhipu AutoGLMReferencias citadas: las referencias citadas son de alta calidad, con una comprensión profunda de los conceptos técnicos, pero la búsqueda está relativamente focalizada.
Mita AI Investigación superficial: Fuerte integración de la información en inglés y chino, cobertura más completa de las áreas de especialización y extracción precisa de la información estructurada.
Manus:: (Esta prueba se centró en la generación de informes y sus funciones de búsqueda no se demostraron en su totalidad, pero la plataforma está diseñada para soportar la integración de información de múltiples fuentes y flujos de trabajo complejos).

Clasificación preliminar de las capacidades de búsqueda e investigación (basada en esta prueba):

Mita AI Investigación superficial: Rendimiento sobresaliente en búsqueda profunda en áreas especializadas, procesamiento bilingüe en inglés y chino.
Búsqueda profunda Gemini: La cobertura más versátil y amplia de los recursos mundiales.
Zhipu AutoGLM: Ventajas en el manejo de literatura técnica china y comprensión profunda.
Búsqueda profunda Grok 3: Líder en acceso a información y noticias empresariales en tiempo real.
ManusEl punto fuerte puede residir en la flexibilidad de la ejecución de tareas y las invocaciones multimodelo, más que en la clasificación de búsqueda pura.

Recomendaciones basadas en escenarios:

investigación académicaSe ha dado prioridad a Zhipu AutoGLM (alta calidad de las referencias), seguido de Mita AI (cobertura de dominio especializado).
Análisis empresarial: Se da prioridad a Grok 3 (información comercial en tiempo real), seguido de Géminis (visión global).
desarrollo tecnológicoPrioridad a Mita AI (comprensión de documentos, extracción estructurada), seguida de Zhipu AutoGLM (profundidad técnica).
Acceso diario a la información/investigación generalPrioridad a Géminis (amplia cobertura), seguida de Grok 3 (puntualidad).
Investigación en profundidad del contenido chinoSe da prioridad a Zhipu AutoGLM o Mita AI, que tienen una comprensión superior de la lengua nativa y el contexto.

Consejo importante:

validación cruzadaPara información crítica o decisiones importantes, se recomienda encarecidamente la validación comparativa utilizando al menos dos herramientas diferentes para garantizar la exactitud e integridad de la información.
Asignación de tareasNo existe una herramienta única. La elección del producto depende en gran medida de la tarea de investigación específica, el tipo de información requerida (en tiempo real o en profundidad, técnica o comercial) y los requisitos de formato y profundidad del informe.
Limitaciones de las pruebas: Esta comparación se basa en una sola tarea. Como Manus Es posible que las ventajas de una herramienta como ésta, que hace hincapié en el flujo de tareas y las capacidades de entrega multiformato, no se aprecien plenamente hasta que se realicen otros tipos de tareas. Además, la interfaz de usuario, el coste y las capacidades de integración de API también son factores a tener en cuenta en la selección real.

Estas herramientas de ayuda a la investigación de la IA representan sin duda las tendencias futuras en la forma de acceder a la información y analizarla. Aunque cada una tiene actualmente sus propios puntos fuertes y débiles, están evolucionando a un ritmo rápido y merecen una atención continuada. Elegir las herramientas adecuadas y aprender a utilizarlas con eficacia mejorará enormemente la investigación y la toma de decisiones.

Noticias AI

Derechos de autor del artículo Círculo de intercambio de inteligencia artificial Todos, por favor no reproducir sin permiso.

SiliconCloud x FastGPT: 200.000 usuarios construyen una exclusiva base de conocimientos de IA

Noticias AI

hace 1 año

039.4K

La tecnología de generación multimodal MiniMax vuelve a innovar: referencia del sujeto, imágenes de retrato de referencia para generar vídeos estilísticamente coherentes

Noticias AI

hace 1 año

046.6K

El protocolo MCP recibe una importante actualización: pasa a ser completamente apátrida y simplifica la comunicación HTTP

Noticias AI

hace 1 año

046K

o3 Demostración práctica de la superioridad de los modelos de inferencia genéricos sobre los modelos de programación especializados en dominios de programación

Noticias AI

hace 1 año

037.7K

Sin comentarios

Debe iniciar sesión para participar en los comentarios.

Acceder ahora

Sin comentarios...

Concurso para ayudantes de investigación en IA: revisión en profundidad y guía de selección de cinco herramientas principales

El auge de los asistentes de investigación con IA: ¿quién puede ayudarte realmente a hacer los deberes?

Pruebas comparativas: generación de estudios de modelos de IA

Evaluación independiente: revisión en profundidad por Claude 3.7

Rendimiento global y puntuación

Cómo elegir: sugerencias de uso en diferentes escenarios

Revisión de la herramienta AI PPT: Comparación en profundidad y guía de selección de cinco plataformas principales

BrowseComp: OpenAI lanza un nuevo parámetro para evaluar la capacidad de recuperación de información de las redes de IA

Artículos relacionados

SiliconCloud x FastGPT: 200.000 usuarios construyen una exclusiva base de conocimientos de IA

La tecnología de generación multimodal MiniMax vuelve a innovar: referencia del sujeto, imágenes de retrato de referencia para generar vídeos estilísticamente coherentes

El protocolo MCP recibe una importante actualización: pasa a ser completamente apátrida y simplifica la comunicación HTTP

o3 Demostración práctica de la superioridad de los modelos de inferencia genéricos sobre los modelos de programación especializados en dominios de programación

Sin comentarios

Últimas colecciones

Últimos artículos

Concurso para ayudantes de investigación en IA: revisión en profundidad y guía de selección de cinco herramientas principales

El auge de los asistentes de investigación con IA: ¿quién puede ayudarte realmente a hacer los deberes?

Pruebas comparativas: generación de estudios de modelos de IA

Evaluación independiente: revisión en profundidad por Claude 3.7

Rendimiento global y puntuación

Cómo elegir: sugerencias de uso en diferentes escenarios

Revisión de la herramienta AI PPT: Comparación en profundidad y guía de selección de cinco plataformas principales

BrowseComp: OpenAI lanza un nuevo parámetro para evaluar la capacidad de recuperación de información de las redes de IA

Artículos relacionados

SiliconCloud x FastGPT: 200.000 usuarios construyen una exclusiva base de conocimientos de IA

La tecnología de generación multimodal MiniMax vuelve a innovar: referencia del sujeto, imágenes de retrato de referencia para generar vídeos estilísticamente coherentes

El protocolo MCP recibe una importante actualización: pasa a ser completamente apátrida y simplifica la comunicación HTTP

o3 Demostración práctica de la superioridad de los modelos de inferencia genéricos sobre los modelos de programación especializados en dominios de programación

Sin comentarios

Herramientas de IA seleccionadas

Últimas colecciones

Últimos artículos