Okareo: инструмент для тестирования моделей и мониторинга ошибок для разработчиков ИИ

Общее введение

Okareo - это платформа, созданная для разработчиков ИИ, которая помогает пользователям тестировать модели ИИ, находить ошибки и повышать производительность. Она предоставляет полный набор инструментов от генерации данных до мониторинга в реальном времени для больших языковых моделей (LLM), интеллектов и систем с расширенным поиском (RAG). Разработчики могут использовать его для создания разнообразных тестовых сценариев, проверки производительности моделей в производственных средах, быстрого выявления проблем и оптимизации. Okareo уделяет особое внимание работе в режиме реального времени, предупреждает о возникновении ошибок в моделях, поддерживает совместную работу и масштабные проекты. С помощью Okareo было сгенерировано более 5 миллионов тестовых сценариев, что делает его идеальным решением для команд разработчиков, которым нужна надежная система искусственного интеллекта.

Okareo:为AI开发者提供模型测试和错误监控的工具

 

Список функций

  • ложное обнаружение: Обнаружение проблем в выходных данных модели, таких как галлюцинации или неточные ответы.
  • Генерация синтетических данных: Автоматическое создание разнообразных тестовых данных, охватывающих обычные и экстремальные сценарии.
  • мониторинг в реальном времениОтслеживание поведения модели в производственной среде и выдача предупреждений при обнаружении аномалий.
  • оценка моделирования: Тесты LLM, интеллект или RAG производительности, генерируя подробные отчеты.
  • пограничный тест: Исследуйте возможности модели с помощью сложных сценариев, чтобы выявить потенциальные точки отказа.
  • Инструменты оптимизации: Настройка моделей и ретриверов для повышения производительности в конкретных областях.
  • Работа в команде: Поддерживает совместную работу нескольких человек для оптимизации процесса разработки.
  • Интеграция CI/CD: Встраивание тестирования в конвейер автоматизации разработки.

 

Использование помощи

Использование Okareo делится на два направления: веб-операции и интеграция кода. Ниже приведены подробные шаги, которые помогут вам полностью освоиться, начиная с регистрации и заканчивая оптимизацией вашей модели.

Регистрация и вход

интервью https://okareo.com/Нажмите на кнопку "Начать бесплатно". Введите адрес электронной почты и пароль для регистрации, а затем нажмите на ссылку для активации учетной записи после получения проверочного письма. Войти https://app.okareo.com/Перейдите в консоль. Здесь вы можете управлять проектом и просматривать результаты.

Получение ключа API

После входа в систему нажмите "Настройки > API Token" в правом верхнем углу, чтобы сгенерировать ключ, например YOUR_OKAREO_API_KEYЭтот ключ используется для вызова кода или операций CLI. Этот ключ используется для вызова кода или операций CLI, и его рекомендуется хранить в надежном месте.

Установка инструмента CLI

Если вы хотите управлять Okareo из командной строки, вы можете установить CLI. в зависимости от вашей системы:

  • MacOS: Беги curl -O -L https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_darwin_arm64.tar.gzРаспакуйте tar -xvf okareo_darwin_arm64.tar.gz.
  • Windows (компьютер): Запустите его с помощью PowerShell Invoke-WebRequest -Uri https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_windows_386.tar.gz -OutFile okareo_windows_386.tar.gzРаспакуйте tar -xvf okareo_windows_386.tar.gz.
  • Linux: Беги curl -O -L https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_linux_386.tar.gzРаспакуйте tar -xvf okareo_linux_386.tar.gz.

После распаковки okareo Перейдите к системному пути (например. /usr/local/bin), запустить okareo -v Проверьте версию.

Проект инициализации

Перейдите в каталог проекта в терминале и запустите его:

okareo init

создание .okareo Папка, Редактировать config.ymlЗаполните:

api_key: YOUR_OKAREO_API_KEY

Инициализация завершена, проект готов.

Создание синтетических данных

Войдите на веб-сайт и выберите "Synthetic Scenario Copilot". Введите требование, например, "пользователи жалуются на неисправность продукта", нажмите "Generate", чтобы сгенерировать тестовые данные и загрузить их в виде JSONL-файла:

{"input": "产品坏了怎么办?", "expected_output": "请联系客服申请维修。"}

Режим CLI:

okareo generate --scenario "产品故障投诉" --output test_data.jsonl

Полученные данные можно использовать для последующего тестирования.

Регистрация и оценка моделей

Зарегистрируйте модель в Python SDK и установите ее:

pip install okareo

скомпилировать eval_model.py::

from okareo import Okareo
from okareo.model_under_test import OpenAIModel
okareo = Okareo("YOUR_OKAREO_API_KEY")
model = okareo.register_model(
name="MyAgent",
model=OpenAIModel(model_id="gpt-3.5-turbo", temperature=0)
)
result = model.run_test(scenario_file="test_data.jsonl", test_type="classification")
print(result["link"])

После выполнения результаты ссылаются на веб-отчет с указанием точности и других показателей.

Мониторинг и оповещения в режиме реального времени

Агенты необходимы для мониторинга производственной среды. Модифицируйте вызовы OpenAI:

from openai import OpenAI
client = OpenAI(
base_url="https://proxy.okareo.com",
default_headers={"api-key": "YOUR_OKAREO_API_KEY"},
api_key="YOUR_OPENAI_KEY"
)
response = client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": "产品怎么样?"}]
)

Данные записываются на веб-странице "Мониторинг" Okareo, которая показывает производительность в реальном времени и предупреждает систему о возникновении галлюцинаций или ошибок.

Сценарии тестовых границ

Ввод сложных сценариев на веб-странице, например "пользователь задает вопросы 5 раз подряд и меняет требования", и генерация нескольких раундов диалоговых данных.Запуск CLI:

okareo generate --scenario "多轮需求变化" --output edge_cases.jsonl

Модель была протестирована на этих данных, чтобы проверить ее стабильность.

Оптимизационные модели

В отчете об оценке будут указаны проблемы, например, поиск нерелевантного контента. После корректировки слов-подсказок или точной настройки модели проведите тест заново. На веб-странице есть функция сравнения, позволяющая увидеть эффект от оптимизации.

Интеграция CI/CD

Добавить в GitHub Действия .github/workflows/okareo.yml::

name: Okareo CI
on: [push]
jobs:
test:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v3
- run: curl -O -L https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_linux_386.tar.gz
- run: tar -xvf okareo_linux_386.tar.gz
- run: ./okareo run --file flows/test_flow.py
env:
OKAREO_API_KEY: ${{ secrets.OKAREO_API_KEY }}

Каждое нажатие автоматически проверяется.

Просмотр результатов и отладка

войти в систему https://app.okareo.com/Если вы хотите просмотреть отчет, вы можете сделать это в разделе "Оценки". Отчет содержит информацию о баллах и ошибках для каждого сценария, что облегчает отладку.

Эти шаги охватывают весь процесс от установки до оптимизации, а подробные инструкции упрощают работу с Okareo.

 

сценарий применения

  1. Развитие интеллектуального обслуживания клиентов
    Вы создаете искусственный интеллект для обслуживания клиентов и хотите убедиться, что он правильно обрабатывает жалобы. Используйте Okareo для создания сценариев рассмотрения жалоб, тестирования и оптимизации ответов.
  2. Создание приложений RAG
    Ваша система RAG должна обеспечивать качество поиска и генерации, и Okareo может проверить точность поиска и улучшить генерируемый контент.
  3. Отладка сложных интеллектов
    Вы разрабатываете многозадачный интеллект, а Okareo может моделировать граничные сценарии для проверки его надежности.

 

QA

  1. Какие вопросы отслеживает компания Okareo?
    Он обнаруживает такие проблемы, как галлюцинации, неточные ответы, задержки и т. д., и предупреждает вас в режиме реального времени во время производства.
  2. Какие языковые модели поддерживаются?
    Поддержка OpenAI, пользовательских моделей и т.д., если к ним можно получить доступ через API.
  3. Разница между бесплатной и платной версией?
    Бесплатная версия подходит для небольшого тестирования, платная версия открывает больше возможностей для генерации данных и мониторинга.
© заявление об авторских правах

Похожие статьи

RWKV Runner:开源大型语言模型RWKV管理工具

Нет комментариев

Вы должны войти в систему, чтобы участвовать в комментариях!
Войти сейчас
нет
Нет комментариев...