Braintrust、PromptHub、Vellum 和 Promptfoo 各自的功能
这 4 个工具在您的 LLM 工作流中解决不同的问题。
Braintrust 是评估和实验平台。提交提示词,获取结果,Braintrust 帮助评估(手动或使用自定义评分函数自动)。通过结构化实验衡量质量的最强工具。
PromptHub 是提示词版本控制——想象 GitHub,但用于提示词。保存版本、比较变更、回滚。简洁优雅,但无评估或生产部署。
Vellum 是生产部署工具,内置 A/B 测试。编写提示词,分割流量(50/50 或自定义),测量指标,推广获胜者。
Promptfoo 是本地提示词测试和 CI/CD 集成的开源框架。用 YAML/JSON 编写测试用例,本地或 GitHub Actions 运行,获取回归报告。免费,随处运行,不适合生产流量分割。
本指南比较 4 个特定工具。更广泛的提示词工程工具排名见 Best Prompt Engineering Tools 2026。包括 DSPy 和 Helicone 的团队优化功能见 Best Prompt Optimization Tools for Teams。
比较方法与评估标准
我们在 5 个对大多数团队重要的标准上评估了这 4 个工具:
| 标准 | 权重 | 定义 |
|---|---|---|
| 评估功能 | 25% | 工具能评估输出、运行实验、追踪趋势吗?能编写自定义评分函数吗? |
| 生产就绪 | 25% | 工具能处理实时流量吗?支持 A/B 测试、路由、金丝雀部署吗? |
| 版本控制 & 协作 | 20% | 团队能保存提示词版本、比较变更、协作吗? |
| CI/CD & 自动化 | 15% | 集成 GitHub Actions、GitLab CI 等吗?能自动化测试吗? |
| 价格 & 复杂性 | 15% | 成本多少?设置需要多长时间?需要工程设置还是开箱即用? |
Braintrust:约 $500/月的评估深度
什么: 评估和实验平台。提交输出,定义指标(准确性、延迟、成本、自定义),查看性能。支持 LLM 基础自动评估。
优势: 最强的实验基础设施。测试多个提示词版本、自定义评分、长期历史跟踪。详细的仪表板。精良文档的 API。
劣势: 昂贵(约 $500/月),无生产部署功能。评估工具,不是生产工具。需手动复制最佳提示词到应用或与 Vellum 结合。
- LLM 基础自动评估(例如"回答事实正确吗?")
- 包含显著性测试的实验仪表板
- 自定义评分函数(JavaScript 或 Python)
- 版本历史(回滚、趋势分析)
PromptHub:$50–200/月的版本控制
什么: 提示词用的 GitHub。保存版本、后来修改、PromptHub 记录 diff。检索旧版本、搜索变更、多项目工作区管理。
优势: 简洁且便宜($50-200/月)。Web UI 易用。对需要版本控制和协作的团队理想,无复杂基础设施。
劣势: 无评估或测量。无法知道哪个提示词版本更好——需手动或另外工具。无生产部署支持。
Vellum:$200–500/月的生产流量分割
什么: 生产部署工具,内置 A/B 测试。编写提示词,分割流量(50/50 或自定义),测量指标(延迟、反馈、成本),推广获胜者。
优势: 生产聚焦。A/B 测试内置。支持批准工作流、金丝雀部署、webhooks。LLM API 集成无缝。最适合实时流量分割测试。
劣势: 更贵($200-500/月)。不适合离线评估——在生产测试,不是本地。需工程设置。非开源。
Promptfoo:免费开源 CI/CD 测试
什么: 本地提示词测试和 CI/CD 集成的开源框架。用 YAML/JSON 编写测试用例(提示词 + 预期结果),本地运行,获取回归报告。GitHub Actions 原生。
优势: 免费(MIT)开源。本地——无云、无认证。YAML 配置简单。GitHub Actions 优秀。社区大。
劣势: 不适合生产流量分割或版本管理。回归测试工具,不是部署工具。生产 A/B 测试需与 Vellum 结合。自动评估限制。
Promptfoo YAML 示例
providers:
- openai:gpt-5.5
tests:
- description: "分类查询"
vars:
question: "这是 bug 报告吗?"
context: "用户抱怨认证错误。"
assert:
- type: "contains"
value: "Bug"
- type: "cost"
threshold: 0.01
- description: "避免幻觉"
vars:
input: "列出 xyz 的 5 个功能。"
assert:
- type: "not-contains"
value: "工具支持 X" # 文档中不存在
PromptQuorum:优化前的模型比较
在为特定 LLM 提供商确定 Braintrust、Vellum、PromptHub 或 Promptfoo 之前,使用 PromptQuorum 将提示词同时分发到 25+ 模型,看哪个表现最好——首个与模型无关的步骤。 免费层可用。
与上述 4 个工具(各优化一个模型)不同,PromptQuorum 在一次运行中回答"哪个模型适合?"。在 PromptQuorum 发现最优模型后,路由到 Braintrust 进行深层评估、Vellum 进行生产 A/B 测试或 Promptfoo 进行 CI/CD 回归防止。
- 包括 GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro 的 25+ 模型,和通过 Ollama、LM Studio 的本地模型
- 9 个内置提示词框架——TRACE、CO-STAR、CRAFT 等
- 包含共识评分的并排响应比较
- 按模型的令牌计数——提交前查看成本差异
- 免费层——无需工程设置
直接对比:所有 4 个工具比较
第 2 节标准下所有 5 个工具摘要:
| 工具 | 主要用途 | 协作 | CI/CD | 定价 | 最适合 |
|---|---|---|---|---|---|
| Braintrust | 评估 + 实验 | ✓ 工作区共享 | ✓ API 集成 | 约 $500/月 | 详细评估 |
| PromptHub | 版本控制 | ✓ Web UI 协作 | ✗ 无 | $50-200/月 | 团队协作 |
| Vellum | 生产 A/B 测试 | ✓ 工作区访问 | ✗ 无 | $200-500/月 | 实时流量测试 |
| Promptfoo | CI/CD 回归 | ✗ 无(本地) | ✓ GitHub Actions | 免费(OSS) | 预算友好 |
| PromptQuorum | 模型比较 | ✓ 共享工作区 | ✗ 无 | 免费 + 额度 | 模型选择 |
按团队类型选择工具
答案取决于工作流。5 个常见场景:
- 1只想避免回归
Why it matters: Promptfoo。免费、本地、GitHub Actions 原生。小团队所需全部。 - 2构建具有实时 A/B 测试的生产系统
Why it matters: Vellum + PromptQuorum。PromptQuorum 先找最优模型,然后 Vellum 流量分割和反馈循环。 - 3有大提示词库,需版本控制
Why it matters: PromptHub。易用、便宜、为团队协作设计。与 Promptfoo 结合做 CI/CD。 - 4需自定义指标的深度评估
Why it matters: Braintrust。仪表板和自动评估无可匹敌。昂贵但值得数据科学团队。 - 5不确定用哪个模型或框架
Why it matters: PromptQuorum 先。在 25+ 模型和框架间比较。后用上述工具部署。
常见错误
❌ 同时购买全部 4 个工具
Why it hurts: 花费 $700+/月,重复。不会充分使用 Braintrust 和 Vellum。
Fix: 选择适合工作流的 2 个工具。大多数团队需:Braintrust + Vellum 或 Promptfoo + PromptHub。
❌ 从评估开始,忽视部署
Why it hurts: Braintrust 显示最优提示词但需手动复制到应用。无"部署"按钮。
Fix: 将 Braintrust 与 Vellum 结合或手动部署。无部署的评估无意义。
❌ 仅本地使用 Promptfoo
Why it hurts: 本地测试很好,但看不到生产延迟、成本或真实错误。
Fix: 用 Promptfoo 做 CI/CD 回归测试,用 Vellum 或自有基础设施部署生产。
❌ 提示词优化前选模型
Why it hurts: 可以从 Claude Opus 开始,但 GPT-4o 可能更优——测试前不知道。
Fix: PromptQuorum 先多模型比较。后用 Braintrust 或 Promptfoo 为最优模型优化。
如何在这 4 个工具之间选择
- 1列出团队的 3 个主要难题:(a) 评估、(b) 版本控制、(c) 生产部署。
- 2每个难题选最优工具:(a) Braintrust、(b) PromptHub、(c) Vellum。
- 3难题是"不知道哪个模型"?PromptQuorum 开始。
- 4难题是"没预算"?CI/CD 选 Promptfoo、版本控制选 PromptHub。
- 5不超过 2 个工具。4 个工具总是太多。
- 6规划 90 天成本基线,评估哪个工具最优 ROI。
中国企业应用方案
中国组织选择提示词管理工具时,有额外考虑。
数据安全法和企业合规: 中国企业遵守 2021 年《数据安全法》时,Braintrust 和 Vellum 是企业级选项。Promptfoo 本地运行,合规更简单。
数据驻地(数据主权): 处理敏感信息(客户数据、内部信息)时,本地工具(Promptfoo 在服务器上运行)更容易满足数据主权需求。云工具(Braintrust、Vellum)需明确安全认证。
推荐方案: 中国团队:先 PromptQuorum(免费)选模型,后 Promptfoo(免费、本地)CI/CD 回归,PromptHub(便宜)版本控制。此组合 $200/月以下且符合数据安全法。仅生产规模达到时才迁移到 Braintrust 或 Vellum。
常见问题
Braintrust 和 PromptHub 主要区别?
Braintrust 用于评估和实验。PromptHub 用于版本控制。Braintrust 回答"哪个提示词最优?"PromptHub 回答"之前用的版本是?"可结合使用。
Promptfoo 真的免费?
是的,Promptfoo 开源(MIT)完全免费。本地或自有服务器运行。唯一成本:OpenAI、Anthropic 等 API 调用。
应选 Braintrust 还是 Vellum?
Braintrust 用于评估(不知哪个提示词最优)。Vellum 用于生产(不知哪个流量分割最优)。不同的——两个结合最优。
Vellum 比 Braintrust 贵多少?
Braintrust 约 $500/月。Vellum $200-500/月(按量)。即 Vellum 可能同价或更便宜,取决生产流量。
Promptfoo 怎样与 GitHub Actions 集成?
创建 `.github/workflows/test.yml` 文件,调用 `npx promptfoo eval`。Promptfoo 读 YAML 测试、运行、显示回归。Actions 自动在每次推送触发。
PromptHub 能替代 Braintrust?
不能。PromptHub 保存版本。Braintrust 评估质量。PromptHub 无法测量哪个版本最优。可结合使用。
Vellum 与提示词管理平台相同?
不是,Vellum 是生产部署工具,不是版本控制。只想存提示词?PromptHub。实时流量 A/B 测试?Vellum。
延伸阅读
- Best Prompt Engineering Tools 2026 — 包括 Braintrust、PromptHub、Vellum、Promptfoo 和 20+ 其他的所有提示词工具广泛排名
- Best Prompt Optimization Tools for Teams — 包括 DSPy、Helicone、OpenAI Evals 的团队优化
- How to Evaluate Prompt Quality — 提示词评估的指标和框架
- Prompt Evaluation Metrics — 准确性、延迟、成本、关联性、自定义指标的深入讲解
来源
- Braintrust — AI Evaluation Platform — 官方文档;评分函数、实验仪表板、$500/月 Team 计划声明基础
- PromptHub — Prompt Version Control — 产品首页;版本控制、Web UI、$50-200/月 定价声明基础
- Vellum — LLM Deployment and A/B Testing — 产品概览和定价页;流量分割、批准工作流、$200-500/月 声明基础
- Promptfoo — Open-Source Prompt Testing — GitHub 仓库和文档;MIT 许可、YAML 配置、GitHub Actions 集成声明基础
- PromptQuorum — Multi-Model Dispatch — 多模型比较工具;25+ 模型分发和跨模型比较声明基础