综合介绍
Okareo 是一个专为AI开发者打造的平台,主要帮助用户测试AI模型、发现错误并提升性能。它针对大型语言模型(LLM)、智能体和检索增强生成(RAG)系统,提供从数据生成到实时监控的完整工具。开发者可以用它生成多样化的测试场景,检查模型在生产环境中的表现,快速找出问题并优化。Okareo 强调实时性,能在模型出错时发出警报,还支持团队协作和大规模项目。已有超过500万个测试场景通过它生成,适合需要可靠AI系统的开发团队。
功能列表
- 错误发现:检测模型输出中的问题,比如幻觉或不准确的回答。
- 合成数据生成:自动生成多样化的测试数据,覆盖常见和极端场景。
- 实时监控:在生产环境中跟踪模型行为,发现异常时发出警报。
- 模型评估:测试 LLM、智能体或 RAG 的性能,生成详细报告。
- 边界测试:通过复杂场景探索模型的极限,找出潜在失败点。
- 优化工具:调整模型和检索器,提升特定领域的表现。
- 团队协作:支持多人协作,简化开发流程。
- CI/CD 集成:将测试嵌入自动化开发管道。
使用帮助
Okareo 的使用分为网页操作和代码集成两种方式。以下是详细步骤,帮助你从注册到优化模型全面上手。
注册与登录
访问 https://okareo.com/
,点击“Get Started for Free”按钮。输入邮箱和密码注册,收到验证邮件后,点击链接激活账户。登录 https://app.okareo.com/
,进入控制台。这里是你管理项目和查看结果的地方。
获取 API 密钥
登录后,点击右上角“Settings > API Token”,生成一个密钥,比如 YOUR_OKAREO_API_KEY
。这个密钥用于代码调用或 CLI 操作,建议保存到安全位置。
安装 CLI 工具
想用命令行操作 Okareo,可以安装 CLI。根据系统选择:
- MacOS:运行
curl -O -L https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_darwin_arm64.tar.gz
,解压tar -xvf okareo_darwin_arm64.tar.gz
。 - Windows:用 PowerShell 运行
Invoke-WebRequest -Uri https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_windows_386.tar.gz -OutFile okareo_windows_386.tar.gz
,解压tar -xvf okareo_windows_386.tar.gz
。 - Linux:运行
curl -O -L https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_linux_386.tar.gz
,解压tar -xvf okareo_linux_386.tar.gz
。
解压后,将 okareo
移到系统路径(比如 /usr/local/bin
),运行 okareo -v
检查版本。
初始化项目
在终端进入项目目录,运行:
okareo init
生成 .okareo
文件夹,编辑 config.yml
,填入:
api_key: YOUR_OKAREO_API_KEY
初始化完成,项目就绪。
生成合成数据
登录网页端,选“Synthetic Scenario Copilot”。输入需求,比如“用户投诉产品故障”,点击“Generate”,生成测试数据,下载为 JSONL 文件:
{"input": "产品坏了怎么办?", "expected_output": "请联系客服申请维修。"}
CLI 方式运行:
okareo generate --scenario "产品故障投诉" --output test_data.jsonl
数据可用于后续测试。
注册并评估模型
用 Python SDK 注册模型,安装:
pip install okareo
编写 eval_model.py
:
from okareo import Okareo
from okareo.model_under_test import OpenAIModel
okareo = Okareo("YOUR_OKAREO_API_KEY")
model = okareo.register_model(
name="MyAgent",
model=OpenAIModel(model_id="gpt-3.5-turbo", temperature=0)
)
result = model.run_test(scenario_file="test_data.jsonl", test_type="classification")
print(result["link"])
运行后,结果链接指向网页报告,显示准确率等指标。
实时监控与警报
生产环境监控需用代理。修改 OpenAI 调用:
from openai import OpenAI
client = OpenAI(
base_url="https://proxy.okareo.com",
default_headers={"api-key": "YOUR_OKAREO_API_KEY"},
api_key="YOUR_OPENAI_KEY"
)
response = client.chat.completions.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": "产品怎么样?"}]
)
数据会记录在 Okareo。网页端“Monitoring”页面显示实时表现,若出现幻觉或错误,系统会发出警报。
测试边界场景
在网页端输入复杂场景,比如“用户连续提问5次并改变需求”,生成多轮对话数据。CLI 运行:
okareo generate --scenario "多轮需求变化" --output edge_cases.jsonl
用这些数据测试模型,检查其稳定性。
优化模型
评估报告会显示问题,比如检索无关内容。调整提示词或微调模型后,重新运行测试。网页端提供对比功能,查看优化效果。
CI/CD 集成
在 GitHub Actions 中添加 .github/workflows/okareo.yml
:
name: Okareo CI
on: [push]
jobs:
test:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v3
- run: curl -O -L https://github.com/okareo-ai/okareo-cli/releases/latest/download/okareo_linux_386.tar.gz
- run: tar -xvf okareo_linux_386.tar.gz
- run: ./okareo run --file flows/test_flow.py
env:
OKAREO_API_KEY: ${{ secrets.OKAREO_API_KEY }}
每次推送都会自动测试。
查看结果与调试
登录 https://app.okareo.com/
,在“Evaluations”查看报告。报告包括每个场景的得分和错误详情,方便调试。
这些步骤覆盖了从安装到优化的全流程,详细操作能让你轻松使用 Okareo。
应用场景
- 开发智能客服
你在做客服AI,想确保它能正确处理投诉。用 Okareo 生成投诉场景,测试并优化回复。 - 构建 RAG 应用
你的 RAG 系统需保证检索和生成质量。Okareo 能测试检索准确性并改进生成内容。 - 调试复杂智能体
你开发一个多任务智能体,Okareo 可模拟边界场景,检查其鲁棒性。
QA
- Okareo 能监控哪些问题?
它能检测幻觉、不准确回答、延迟等问题,并在生产中实时报警。 - 支持哪些语言模型?
支持 OpenAI、自定义模型等,只要能通过 API 接入。 - 免费版和付费版区别?
免费版适合小规模测试,付费版解锁更多数据生成和监控功能。