AI个人学习
和实操指南
阿里绘蛙

Agenta:集成到AI应用的提示词与模型效果评估工具

综合介绍

Agenta 是一个开源的AI模型管理工具,专门帮助用户轻松实验提示词、测试模型效果和监控运行情况。它适合想快速开发AI应用的人,提供了一个简单操作的平台。你可以用它试试不同提示词的效果,对比多个AI模型的回答,还能实时查看应用的运行数据,比如速度和费用。Agenta 支持很多常见的AI框架,比如 LangChain,功能强大又灵活。因为是开源的,任何人都可以免费使用,还能在 GitHub 上找到代码自己改动。现在它在 GitHub 上已经有 2.1k 多人点赞,说明很受欢迎。

Agenta:面向AI应用的提示词与模型效果评估工具-1


 

功能列表

  • 提示词实验区:在网页上输入提示词,试试不同AI模型的效果,还能对比结果。
  • 自定义任务流程:可以自己搭一个AI任务流程,比如让模型根据资料回答问题。
  • 模型效果测试:用工具检查模型答得怎么样,支持自动评分或请人帮忙看。
  • 人工检查支持:能和团队一起对比模型回答,挑出最好的。
  • 提示词保存:把试好的提示词存下来,随时调出来用。
  • 实时运行监控:看看AI用起来花多少钱、跑多快,有没有问题。

 

使用帮助

安装流程

Agenta 可以装在自己电脑上用,也可以用云端服务。下面是装到电脑上的步骤:

  1. 准备环境
    • 确保电脑有 Docker 和 Docker Compose,这两个是跑 Agenta 的必备工具。
    • 最好用 Linux 或 macOS 系统,Windows 用户得先开 WSL2。
    • 检查一下 Python(建议 3.10 或更高)和 Git 装好了没,后面会用到。
  2. 下载并启动
    • 打开终端,输入命令把 Agenta 下载下来:
      mkdir agenta && cd agenta
      curl -L https://raw.githubusercontent.com/agenta-ai/agenta/main/docker-compose.gh.yml -o docker-compose.gh.yml
      
    • 然后启动服务:
      docker compose -f docker-compose.gh.yml up -d
      
    • 等几分钟,打开浏览器,输入 http://localhost:3000,就能看到页面。
  3. 设置选项(可选)
    • 如果不想让 Agenta 收集匿名数据,可以改 agenta-web/.env 文件,把 TELEMETRY_TRACKING_ENABLED 设成 false
    • 用命令行(CLI)的用户,可以改 ~/.agenta/config.toml,设成 telemetry_tracking_enabled = false
  4. 检查有没有装好
    • 在浏览器里看到 Agenta 的欢迎页面就说明成功了。
    • 如果想用云端,可以看官网怎么连 AWS 或其他云服务。

主要功能怎么用

1. 提示词实验区

  • 怎么进:登录 Agenta,点左边菜单的“Playground”。
  • 试提示词:在框里输入想试的话,比如“写一篇短文”。
  • 挑模型:从列表里选AI模型(比如 GPT-4),可以多选几个对比。
  • 跑结果:点“Run”,就能看到不同模型的回答。
  • 改和存:觉得哪个回答不好就改改提示词,满意了点“Save”存起来。
  • 用在哪:适合试试哪个模型回答问题更好,或者调提示词让回答更准。

2. 搭自己的任务流程

  • 新建流程:点“Workflows”,选“New Workflow”,挑个类型(比如问答流程)。
  • 填东西:输入需要的资料,比如知识库地址或任务要求。
  • 试一下:点“Test”,看看结果对不对。
  • 团队合作:请同事一起改参数,看看效果。
  • 存和用:调好了就保存,能直接拿去用。
  • 用在哪:适合做复杂任务,比如让AI读资料回答问题。

3. 测试模型效果

  • 开始测试:点“Evaluation”,选“New Evaluation”。
  • 选测试法:挑现成的评分工具,或者自己写个测试代码。
  • 跑数据:放点测试问题进去,点“Run”,会出成绩单。
  • 请人看:想人工查的话,点“Human Eval”,请人挑挑答案。
  • 看结果:测试完有图表,告诉你模型好不好。
  • 用在哪:适合检查模型能不能用,或者找找问题。

4. 监控运行情况

  • 去哪看:点“Monitoring”看AI用得怎么样。
  • 看数据:能看到花了多少钱、跑多快,有没有出错。
  • 查记录:选个应用,看看每次请求的细节。
  • 修问题:要是出错了,点“Trace”查原因。
  • 怎么改:根据数据调提示词或参数,让它跑得更好。
  • 用在哪:适合上线后盯着点,确保没问题。

小贴士

  • 网络:装的时候网得稳,不然 Docker 下载会卡。
  • 权限:多人用时设好权限,别让人乱改。
  • 求助:有问题看 GitHub 文档,或者去 Slack 问问。

用上面这些步骤,你就能很快上手 Agenta,调提示词、管模型、看数据都方便得很。不管是自己玩还是团队用,都能省不少力气。

CDN1
未经允许不得转载:首席AI分享圈 » Agenta:集成到AI应用的提示词与模型效果评估工具

首席AI分享圈

首席AI分享圈专注于人工智能学习,提供全面的AI学习内容、AI工具和实操指导。我们的目标是通过高质量的内容和实践经验分享,帮助用户掌握AI技术,一起挖掘AI的无限潜能。无论您是AI初学者还是资深专家,这里都是您获取知识、提升技能、实现创新的理想之地。

联系我们
zh_CN简体中文