Petri - Marco de auditoría de seguridad de IA de código abierto de Anthropic

Últimos recursos sobre IAActualizado hace 5 meses Círculo de intercambio de inteligencia artificial

26.4K 00

¿Qué es Petri?

Petri, sí. Antrópico Un marco de auditoría de seguridad de IA de código abierto desarrollado para evaluar sistemáticamente la seguridad y la alineación del comportamiento de los modelos de IA. Mediante la simulación de escenarios del mundo real, se permite a un auditor automatizado entablar múltiples rondas de diálogo con un modelo objetivo y, a continuación, un agente juez puntúa el comportamiento del modelo en múltiples dimensiones.Petri admite una amplia gama de API de modelos y proporciona un rico conjunto de comandos semilla que cubren escenarios de alto riesgo, como el engaño, la adulación y la cooperación con solicitudes perjudiciales. Se realizaron pruebas con 14 modelos punteros y se comprobó que todos ellos presentaban distintos grados de riesgo de alineación de seguridad en diferentes escenarios.

Características de Petri

Auditorías automatizadasEvaluación automática del comportamiento del modelo mediante la simulación de múltiples rondas de diálogo entre los usuarios y las herramientas y el sistema de IA objetivo.
Puntuación multidimensionalAnálisis multidimensional del comportamiento del modelo, centrándose en las dimensiones relacionadas con la seguridad.
Soporte de comandos de siembra: Proporciona un conjunto diverso de instrucciones de siembra que cubren una amplia gama de escenarios de alto riesgo para ayudar a los investigadores a comenzar las pruebas rápidamente.
Compatibilidad de modelos: Admite diversas API de modelos principales para facilitar las pruebas en distintos modelos.
Visualización de resultados: Proporciona resultados y puntuaciones claros de las pruebas para ayudar a los investigadores a identificar rápidamente los riesgos potenciales para sus modelos.
código abierto y extensibleEl código es de código abierto, por lo que los investigadores pueden personalizarlo y ampliarlo según sus necesidades.

Puntos fuertes de Petri

Automatización y eficaciaGracias a la automatización del proceso de auditoría, Petri puede generar rápidamente un gran número de resultados de pruebas, lo que mejora significativamente la eficacia de las evaluaciones y ahorra tiempo y costes de mano de obra.
Evaluación exhaustiva y multidimensionalSoporta la evaluación multidimensional de la seguridad de los modelos de IA, cubriendo una amplia gama de comportamientos de alto riesgo como la suplantación de identidad, el grooming, la autoprotección, etc., proporcionando un análisis de seguridad exhaustivo.
Flexibilidad y escalabilidadLas API admiten diversos modelos, lo que permite a los investigadores ampliar y personalizar fácilmente los escenarios de prueba para adaptarlos a las distintas necesidades de investigación.
Código abierto y apoyo comunitario: Como herramienta de código abierto, Petri cuenta con el apoyo de una comunidad activa en la que los investigadores pueden compartir los resultados de las pruebas, mejorar el código y promover el intercambio y el avance técnico.
Sistemática y normalizadaLa empresa ofrece un marco de pruebas sistemático y un proceso de evaluación normalizado para ayudar a los investigadores a establecer puntos de referencia reproducibles y comparables y promover el desarrollo normalizado de la investigación sobre seguridad de la IA.

¿Cuál es la página web oficial de Petri?

Dirección del sitio web oficial:: https://www.anthropic.com/research/petri-open-source-auditing
Repositorio Github:: https://github.com/safety-research/petri

¿Para quién es Petri?

Investigadores de IA: Investigación de la seguridad, fiabilidad y alineación del comportamiento de los modelos de IA, probados y analizados sistemáticamente mediante Petri.
Desarrollador de modelos: Los ingenieros que desarrollan modelos lingüísticos a gran escala u otros sistemas de IA utilizan Petri para evaluar y optimizar la seguridad y el rendimiento de los modelos.
experto en seguridadLos profesionales preocupados por los riesgos potenciales de la tecnología de IA utilizan Petri para identificar y prevenir las amenazas a la seguridad que pueden plantear los modelos.
Equipo técnico de evaluaciónEquipos de empresas u organizaciones responsables de evaluar y auditar los sistemas de IA, utilizando Petri para realizar evaluaciones de seguridad normalizadas.
investigador académico: Los académicos dedicados a la investigación académica en el campo de la seguridad de la IA realizan experimentos e investigaciones a través de Petri para avanzar en la teoría y la práctica.