Promptfoo: безопасный и надежный инструмент для тестирования приложений LLM

Общее введение

promptfoo - это инструмент командной строки с открытым исходным кодом и библиотека, предназначенная для оценки и повторного тестирования приложений Large Language Model (LLM). Он предоставляет разработчикам полный набор инструментов для создания надежных подсказок, моделей и генерации на основе поиска (RAG), а также для защиты приложений с помощью автоматизированного тестирования и тестирования на проникновение. promptfoo поддерживает широкий спектр поставщиков API LLM, включая OpenAI, Anthropic, Azure, Google, Инструмент разработан для того, чтобы помочь разработчикам быстро итерировать и улучшать производительность языковых моделей с помощью подхода, основанного на тестировании.

promptfoo:提供安全可靠的LLM应用测试工具

 

Список функций

  • Автоматизированное тестирование "красной команды: Проводите индивидуальное сканирование для выявления рисков, связанных с безопасностью, законодательством и брендом.
  • оценка качества: Построение надежных подсказок и моделей с помощью бенчмаркинга, ориентированного на конкретные случаи использования.
  • Параллелизм и кэширование: Ускорьте процесс оценки, поддерживая перезагрузку в режиме реального времени.
  • интерфейс командной строкиДля быстрого начала работы не требуется SDK, облачных зависимостей или логинов.
  • Поддержка сообщества с открытым исходным кодом: Поддерживается активным сообществом разработчиков с открытым исходным кодом и используется миллионами пользователей в производственных средах.
  • Отчеты об уязвимостях и рисках высокого уровня: Генерируйте подробные отчеты об уязвимостях и рисках, чтобы помочь разработчикам выявить и устранить проблемы.
  • Поддержка нескольких языков: Поддержка Python, Javascript и других языков программирования.
  • Приватизированная эксплуатацияВсе оценки выполняются на локальных компьютерах, чтобы обеспечить конфиденциальность данных.

 

Использование помощи

Процесс установки

  1. Установка инструментов командной строки::
   npm install -g promptfoo
  1. Проект инициализации::
   npx promptfoo@latest init
  1. Настройка тестовых примеров: Открытьpromptfooconfig.yamlдобавьте подсказки и переменные, которые вы хотите проверить. Пример:
   targets:
- id: 'example'
config:
method: 'POST'
headers: 'Content-Type: application/json'
body:
userInput: '{{prompt}}'

Руководство по использованию

  1. Определение тестовых примеров: Определите основные сценарии использования и режимы отказа и подготовьте набор подсказок и тестовых примеров, которые представляют эти сценарии.
  2. Оценка конфигурации: Настройте оценки, указав подсказки, тестовые примеры и поставщиков API.
  3. Оперативная оценка: Выполните оценку с помощью инструмента командной строки или библиотеки и запишите выходные данные модели для каждого запроса.
   promptfoo evaluate
  1. анализ: Установите требования к автоматизации или просмотрите результаты в структурированном формате/веб-интерфейсе. Используйте эти результаты для выбора модели и подсказок, которые лучше всего подходят для вашего случая использования.
  2. петля обратной связи: Продолжайте расширять тестовые примеры по мере накопления примеров и отзывов пользователей.

Подробная процедура работы

  1. Испытание красной команды::
    • Выполняйте пользовательское сканирование для обнаружения распространенных уязвимостей безопасности, таких как утечка PII, использование небезопасных инструментов, межсессионная утечка данных, прямые и косвенные инъекции и многое другое.
    • Используйте следующую команду, чтобы запустить тест "красной команды": bash
      npx promptfoo@latest redteam init
  2. оценка качества::
    • Создавайте надежные советы и модели с помощью бенчмаркинга, ориентированного на конкретные случаи использования.
    • Для запуска оценки качества используйте следующую команду: bash
      promptfoo evaluate --config promptfooconfig.yaml
© заявление об авторских правах

Похожие статьи

TestSprite:AI自动化软件测试工具,软件测试过程自动化智能体

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...