Promptfoo: una herramienta segura y fiable para probar aplicaciones LLM

Introducción general

promptfoo es una herramienta de línea de comandos de código abierto y una biblioteca dedicada a la evaluación y red-teaming de aplicaciones Large Language Model (LLM). Proporciona a los desarrolladores un conjunto completo de herramientas para la construcción de prompts confiables, modelos, y la generación basada en la recuperación (RAGs) y la seguridad de las aplicaciones a través de pruebas automatizadas de red-team y pruebas de penetración. promptfoo soporta una amplia gama de proveedores de API LLM, incluyendo OpenAI, Anthropic, Azure, Google, La herramienta está diseñada para ayudar a los desarrolladores a iterar rápidamente y mejorar el rendimiento de sus modelos de lenguaje a través de un enfoque de desarrollo basado en pruebas.

promptfoo:提供安全可靠的LLM应用测试工具

 

Lista de funciones

  • Pruebas automatizadas del equipo rojo: Realice análisis personalizados para detectar riesgos de seguridad, legales y de marca.
  • evaluación de la calidad: Construir pistas y modelos fiables mediante la evaluación comparativa de casos de uso específicos.
  • Concurrencia y almacenamiento en cachéAcelerar el proceso de evaluación mediante la recarga en tiempo real.
  • interfaz de línea de comandosNo se necesitan SDK, dependencias de la nube ni inicios de sesión para empezar a trabajar rápidamente.
  • Apoyo de la comunidad de código abierto: Respaldado por una activa comunidad de código abierto para millones de usuarios en entornos de producción.
  • Informes de alto nivel sobre vulnerabilidades y riesgosGeneración de informes detallados sobre vulnerabilidades y riesgos para ayudar a los desarrolladores a identificar y solucionar problemas.
  • Soporte multilingüeSoporte para Python, Javascript y otros lenguajes de programación.
  • Explotación privatizadaTodas las evaluaciones se realizan en máquinas locales para garantizar la privacidad de los datos.

 

Utilizar la ayuda

Proceso de instalación

  1. Instalación de herramientas de línea de comandos::
   npm install -g promptfoo
  1. Proyecto de inicialización::
   npx promptfoo@latest init
  1. Configuración de casos de prueba: Abiertopromptfooconfig.yamlañada las preguntas y variables que desee probar. Ejemplo:
   targets:
- id: 'example'
config:
method: 'POST'
headers: 'Content-Type: application/json'
body:
userInput: '{{prompt}}'

Normas de uso

  1. Definición de casos de pruebaIdentificar los principales casos de uso y modos de fallo y preparar un conjunto de preguntas y casos de prueba que representen estos escenarios.
  2. Evaluación de la configuraciónConfigure las evaluaciones especificando las solicitudes, los casos de prueba y los proveedores de API.
  3. Evaluación operativaEjecute la evaluación utilizando una herramienta de línea de comandos o una biblioteca y registre la salida del modelo para cada consulta.
   promptfoo evaluate
  1. análisisConfigure los requisitos de automatización o visualice los resultados en un formato estructurado/UI web. Utilice estos resultados para seleccionar el modelo y los avisos que mejor se adapten a su caso de uso.
  2. bucle de retroalimentaciónSiga ampliando los casos de prueba a medida que recopile más ejemplos y comentarios de los usuarios.

Procedimiento de funcionamiento detallado

  1. Prueba del Equipo Rojo::
    • Ejecute análisis personalizados para detectar vulnerabilidades de seguridad comunes, como fugas de información personal, uso inseguro de herramientas, fugas de datos entre sesiones, inyecciones directas e indirectas, etc.
    • Utilice el siguiente comando para iniciar la prueba del equipo rojo: bash
      npx promptfoo@latest redteam init
  2. evaluación de la calidad::
    • Construya consejos y modelos fiables mediante evaluaciones comparativas específicas para cada caso de uso.
    • Utilice el siguiente comando para ejecutar la evaluación de la calidad: bash
      promptfoo evaluate --config promptfooconfig.yaml
© declaración de copyright

Artículos relacionados

Sin comentarios

Debe iniciar sesión para participar en los comentarios.
Acceder ahora
ninguno
Sin comentarios...