综合介绍
ChainForge 是一个开源的可视化编程环境,专为测试和评估大型语言模型(LLM)的提示效果而设计。它提供了一个数据流提示工程环境,用户可以通过该平台快速探索和分析不同提示对LLM响应质量的影响。ChainForge 支持多种模型提供商,包括 OpenAI、HuggingFace、Anthropic 等,用户可以在一个界面中对多个模型进行比较和评估。该工具特别适合早期阶段的提示探索和快速迭代,帮助用户优化提示和模型设置,以获得最佳的响应质量。
功能列表
- 多模型查询:同时查询多个LLM,快速测试提示想法和变体。
- 响应质量比较:比较不同提示、模型和模型设置下的响应质量。
- 可视化评估:设置评估指标并立即可视化提示、参数、模型和设置的结果。
- 多轮对话:在模板参数和聊天模型之间进行多轮对话,检查和评估每个对话回合的输出。
- 模板化提示:不仅可以模板化提示,还可以模板化后续聊天消息。
- 示例评估流:提供多个示例评估流,展示可能的使用场景。
- 本地和在线安装:支持本地安装和在线试用,提供灵活的使用方式。
- 多种模型支持:支持 OpenAI、HuggingFace、Anthropic、Google PaLM2、Azure OpenAI 等多种模型提供商。
使用帮助
安装流程
本地安装
- 确保已安装 Python 3.8 或更高版本。
- 运行以下命令安装 ChainForge:
pip install chainforge
- 安装完成后,运行以下命令启动 ChainForge 服务器:
chainforge serve
- 打开浏览器,访问
localhost:8000
,即可开始使用 ChainForge。
使用 Docker 安装
- 构建 Docker 镜像:
docker build -t chainforge .
- 运行 Docker 容器:
docker run -p 8000:8000 chainforge
- 打开浏览器,访问
127.0.0.1:8000
,即可开始使用 ChainForge。
使用指南
- 设置 API 密钥:点击右上角的设置图标,输入 OpenAI、Anthropic、Google PaLM 等 API 密钥。
- 创建新项目:点击“新建项目”按钮,选择所需的模型和提示模板。
- 添加提示和模型:在项目中添加提示模板和模型,设置不同的参数进行测试。
- 运行评估:点击“运行”按钮,ChainForge 将自动查询所有选定的模型,并显示响应结果。
- 比较和可视化:使用可视化工具比较不同提示和模型的响应质量,选择最佳的提示和模型设置。
- 保存和分享:项目完成后,可以保存评估结果,并生成分享链接与他人共享。
示例评估流
ChainForge 提供多个示例评估流,帮助用户快速上手。例如,可以使用“响应长度比较”示例,比较不同模型在相同提示下的响应长度。用户还可以创建自定义评估流,设置特定的评估指标和可视化方式。
高级功能
- 自定义评估节点:用户可以编写 Python 代码,自定义评估节点,进行更复杂的响应评估。
- 多轮对话评估:支持多轮对话评估,用户可以测试不同对话轮次的响应质量。
- 数据导出:评估结果可以导出为 Excel 表格,方便进一步分析。
ChainForge 是一个功能强大的工具,适合研究人员、开发者和数据科学家使用,帮助他们优化提示和模型设置,提高 LLM 的响应质量。