Braintrust・PromptHub・Vellum・Promptfoo それぞれの役割
これら 4 つのツールは、LLM ワークフロー内の異なる問題を解決します。
Braintrust は評価と実験プラットフォーム。プロンプトを送信し、結果を取得します。Braintrust はそれらを評価するのに役立ちます(手動または独自のスコアリング関数を使用した自動)。構造化実験による品質測定に優れています。
PromptHub はプロンプトのバージョン管理です — GitHub と考えてください、ただしプロンプト用。バージョンを保存し、変更を比較し、必要に応じてロールバック。シンプルで洗練されていますが、評価や本番デプロイメントはありません。
Vellum は組み込み A/B テスト付きの本番デプロイメントツール。プロンプトを記述し、トラフィックを分割(50/50 またはカスタム)し、メトリクスを測定し、勝者をプロモート。
Promptfoo はローカルプロンプトテストと CI/CD の統合用のオープンソースフレームワーク。YAML/JSON でテストケースを記述し、ローカルまたは GitHub Actions で実行し、回帰レポートを取得。無料、どこでも実行可能、本番トラフィック分割には不向き。
このガイドは 4 つの特定のツールを比較しています。より広範なプロンプトエンジニアリングツールのランキングについては、Best Prompt Engineering Tools 2026 を参照。DSPy や Helicone を含むチーム最適化機能については、Best Prompt Optimization Tools for Teams を参照。
比較評価の基準と方法
ほとんどのチームにとって重要な 5 つの基準でこれら 4 つのツールを評価しました:
| 基準 | ウェイト | 定義 |
|---|---|---|
| 評価機能 | 25% | ツールは出力を評価できますか?実験を実行できますか?トレンドを追跡できますか?カスタムスコアリング関数を記述できますか? |
| 本番対応性 | 25% | ツールはライブトラフィックを処理できますか?A/B テスト、ルーティング、カナリアデプロイメントをサポートしていますか? |
| バージョン管理 & コラボレーション | 20% | チームはプロンプトバージョンを保存し、変更を比較し、プロンプトで協力できますか? |
| CI/CD & オートメーション | 15% | GitHub Actions、GitLab CI などの CI/CD システムと統合されていますか?テストを自動化できますか? |
| 価格 & 複雑性 | 15% | コストはいくらですか?セットアップにはどのくらい時間がかかりますか?エンジニアリングセットアップが必要ですか、それともすぐに使用できますか? |
Braintrust:月額 500 € 程度の評価プラットフォーム
何: 評価と実験プラットフォーム。出力を送信し、メトリクスを定義し(精度、レイテンシ、コスト、カスタム)、パフォーマンスを確認。LLM ベースの自動評価も可能。
強み: 最強の実験インフラ。複数のプロンプトバージョンをテストでき、カスタムスコアリング、長期履歴を追跡。ダッシュボードは詳細。API は十分に文書化されています。
弱み: 高額(月500€程度)で、本番デプロイメント機能なし。評価ツール、本番ツールではない。ベストプロンプトをアプリに手動でコピーするか、Vellum と組み合わせる必要があります。
- LLM ベースの自動評価(例:「回答は事実的に正確ですか?」)
- 有意性テスト付きの実験ダッシュボード
- カスタムスコアリング関数(JavaScript または Python)
- バージョン履歴(ロールバック、トレンド分析)
PromptHub:月額 50〜200 € のバージョン管理
何: プロンプト用の GitHub。バージョンを保存し、後で変更し、PromptHub が diff を記録。古いバージョンを取得でき、変更を検索し、複数のプロンプトをワークスペースで管理。
強み: シンプルで安価(月50~200€)。Web UI は使いやすい。複雑なインフラなしで、バージョン管理とチーム協力を望むチームに最適。
弱み: 評価や測定なし。どのプロンプトバージョンが優れているかを知る方法がない — 手動で行うか、別のツールを使用する必要があります。本番デプロイメント サポートなし。
Vellum:月額 200〜500 € の本番トラフィック分割
何: ネイティブ A/B テスト付き本番デプロイメントツール。プロンプトを記述し、トラフィックを分割(50/50 またはカスタム)し、メトリクスを測定し(レイテンシ、フィードバック、コスト)、勝者をプロモート。
強み: 本番指向。A/B テスト組み込み。承認ワークフロー、カナリアデプロイメント、ウェブフックをサポート。LLM API インテグレーション シームレス。ライブトラフィック分割テストに最適。
弱み: より高額(月200~500€)。オフライン評価には不向き — 本番でテストし、ローカルではテストしません。エンジニアリングセットアップが必要。オープンソースではありません。
Promptfoo:無料オープンソース CI/CD テスト
何: ローカルプロンプトテストと CI/CD 統合用のオープンソースフレームワーク。YAML/JSON でテストケース(プロンプト + 期待される結果)を記述し、ローカルで実行し、回帰レポートを取得。GitHub Actions ネイティブ。
強み: 無料(MIT)でオープンソース。ローカル — クラウドなし、認証なし。YAML 設定はシンプル。GitHub Actions 優れています。コミュニティ大きい。
弱み: 本番トラフィック分割またはバージョン管理には不向き。回帰テストツール、デプロイメントツールではない。本番 A/B テストには Vellum と組み合わせる必要があります。自動評価は限定的。
Promptfoo YAML の例
providers:
- openai:gpt-5.5
tests:
- description: "クエリを分類"
vars:
question: "これはバグレポートですか?"
context: "ユーザーが認証エラーについて文句を言っています。"
assert:
- type: "contains"
value: "Bug"
- type: "cost"
threshold: 0.01
- description: "ハルシネーション回避"
vars:
input: "xyz の 5 つの機能をリストアップしてください。"
assert:
- type: "not-contains"
value: "ツールは X をサポート" # ドキュメントにない
PromptQuorum:最適化前のモデル比較
特定の LLM プロバイダーについて Braintrust、Vellum、PromptHub、Promptfoo に決める前に、PromptQuorum を使用してプロンプトを 25+ モデルに同時に送信し、どれが最高のパフォーマンスを発揮するかを確認してください — モデルに依存しない最初のステップ。 無料ティア利用可能。
上記の 4 つのツール(それぞれ 1 つのモデルを最適化)とは異なり、PromptQuorum は「どのモデルが適切か?」という質問に 1 パスで答えます。PromptQuorum で最適なモデルを発見した後、詳細評価には Braintrust、本番 A/B テストには Vellum、CI/CD 回帰防止には Promptfoo にルーティングします。
- GPT-4o、Claude Opus 4.7、Gemini 3.1 Pro、Ollama と LM Studio 経由のローカルモデルを含む 25+ モデル
- TRACE、CO-STAR、CRAFT など 9 つの組み込みプロンプトフレームワーク
- コンセンサススコアリング付きの並べて表示される応答比較
- モデルあたりのトークン数 — コミットする前にコスト差を確認
- 無料ティア — エンジニアリングセットアップは不要
直接対決:すべての 4 つのツールを比較
セクション 2 の基準に基づくすべての 5 つのツールの要約:
| ツール | プライマリ使用法 | コラボレーション | CI/CD | 価格 | に最適 |
|---|---|---|---|---|---|
| Braintrust | 評価 + 実験 | ✓ ワークスペース共有 | ✓ API インテグレーション | 月 500€ 程度 | 詳細評価 |
| PromptHub | バージョン管理 | ✓ Web UI コラボ | ✗ なし | 月 50~200€ | チーム協力 |
| Vellum | 本番 A/B テスト | ✓ ワークスペース アクセス | ✗ なし | 月 200~500€ | ライブトラフィック テスト |
| Promptfoo | CI/CD 回帰 | ✗ なし(ローカル) | ✓ GitHub Actions | 無料(OSS) | 予算志向 |
| PromptQuorum | モデル比較 | ✓ 共有ワークスペース | ✗ なし | 無料 + クレジット | モデル選択 |
チームタイプ別のツール選定
答えはワークフローによります。5 つの一般的なシナリオ:
- 1回帰を回避したいだけ
Why it matters: Promptfoo。無料、ローカル、GitHub Actions ネイティブ。小さなチームのためにすべてが必要です。 - 2ライブ A/B テスト付き本番システムを構築中
Why it matters: Vellum + PromptQuorum。PromptQuorum で最高のモデルを最初に見つけ、次に Vellum でトラフィック分割とフィードバックループ。 - 3大きなプロンプトライブラリとバージョン管理が必要
Why it matters: PromptHub。使いやすく、安価で、チーム協力向け。CI/CD に Promptfoo と組み合わせ。 - 4カスタムメトリクスでの詳細評価が必要
Why it matters: Braintrust。ダッシュボードと自動評価は無敵。高額ですが、データ科学チームの価値があります。 - 5どのモデルまたはフレームワークを使用するか不確実
Why it matters: PromptQuorum 最初。25+ モデルとフレームワーク全体で比較。次に上記のツールでデプロイ。
よくあるエラー
❌ 4 つのツールをすべてまとめて購入
Why it hurts: 月 700€ 以上かかり、冗長。Braintrust と Vellum を完全に使用しません。
Fix: ワークフローに適した 2 つのツールを選択。ほとんどのチームが必要:Braintrust + Vellum または Promptfoo + PromptHub。
❌ 評価で開始、デプロイメント忘却
Why it hurts: Braintrust は最高のプロンプトを表示しますが、手動でアプリにコピー。「デプロイ」ボタンなし。
Fix: Braintrust を Vellum と組み合わせるか、手動デプロイ。評価なしのデプロイメント 無意味。
❌ Promptfoo ローカルのみで使用
Why it hurts: ローカルテストは優れていますが、本番レイテンシ、コスト、実際のエラーは表示されません。
Fix: Promptfoo を CI/CD 回帰テストに使用し、Vellum またはカスタムインフラで本番にデプロイ。
❌ プロンプト最適化前にモデル選択
Why it hurts: Claude Opus で開始できますが、GPT-4o がより良い可能性があります — テストするまで知りません。
Fix: PromptQuorum で最初に複数モデルを比較。次に Braintrust または Promptfoo で最高のモデルに最適化。
これら 4 つのツール間での選択方法
- 1チームの 3 つの主な課題をリストアップ:(a) 評価、(b) バージョン管理、(c) 本番デプロイメント。
- 2各課題に対して最高のツール:(a) Braintrust、(b) PromptHub、(c) Vellum。
- 3課題が「どのモデルかわかりません」の場合は、PromptQuorum で開始。
- 4課題が「予算がない」の場合は、CI/CD に Promptfoo、バージョン管理に PromptHub を選択。
- 52 つ以上のツールを購入しないでください。4 つのツールはいつも多すぎます。
- 690 日間のコスト ベースラインを計画し、どのツールが最高の ROI かを評価します。
日本ユーザーのための活用ポイント
日本の組織にとって、プロンプト管理ツール選択時の追加検討事項があります。
METI AI ガバナンスと企業デプロイメント: 日本企業が METI(経済産業省)の AI ガバナンスフレームワーク 2024 に準拠する場合、Braintrust と Vellum はエンタープライズ向け選択肢。Promptfoo はローカルで実行でき、METI 準拠性が簡単。
データレジデンシー(データ主権): 機密情報を処理する場合(顧客データ、内部情報)、ローカルツール(Promptfoo をサーバーで実行)がデータ主権要件を満たすのは簡単。クラウドツール(Braintrust、Vellum)は明示的なセキュリティ認定が必要です。
推奨事項: 日本チームの場合:まず PromptQuorum(無料)モデル選択、次に Promptfoo(無料、ローカル)CI/CD 回帰、PromptHub(安価)バージョン管理。このコンボは月 200€ 未満で METI フレームワーク準拠。本番スケール到達時のみ Braintrust または Vellum に移行。
FAQ
Braintrust と PromptHub の主な違いは?
Braintrust は評価と実験向け。PromptHub はバージョン管理向け。Braintrust は「どのプロンプトが最良か」に答え、PromptHub は「以前使用したバージョンは」に答えます。両者を組み合わせ可能。
Promptfoo は本当に無料?
はい、Promptfoo はオープンソース(MIT)で完全無料。ローカルまたは独自サーバーで実行。唯一のコスト:OpenAI、Anthropic などへの API 呼び出し。
Braintrust または Vellum を選択すべき?
Braintrust は評価向け(どのプロンプトが最良かわかりません)。Vellum は本番向け(どのトラフィック分割が最良かわかりません)。異なる — 両者一緒が理想的。
Vellum は Braintrust より高額?
Braintrust 月 500€ 程度。Vellum 月 200~500€(ボリューム依存)。つまり、Vellum は同じかもしくはより安いコスト本番トラフィックによります。
Promptfoo を GitHub Actions に統合?
`.github/workflows/test.yml` ファイルを作成し、`npx promptfoo eval` を呼び出し。Promptfoo は YAML テスト読み込み、実行、回帰表示。Actions は自動的に各プッシュで起動。
PromptHub が Braintrust を置き換えられる?
いいえ。PromptHub はバージョン保存。Braintrust は品質評価。PromptHub はどのバージョンが最高かを測定できません。組み合わせ可能。
Vellum はプロンプト管理プラットフォームと同じ?
いいえ、Vellum は本番デプロイメントツール、バージョン管理ではない。プロンプト保存のみ?PromptHub 使用。ライブトラフィック A/B テスト?Vellum。
関連資料
- Best Prompt Engineering Tools 2026 — Braintrust、PromptHub、Vellum、Promptfoo を含むすべてのプロンプトツールの広範なランキングと 20+ その他
- Best Prompt Optimization Tools for Teams — DSPy、Helicone、OpenAI Evals を含むチーム最適化
- How to Evaluate Prompt Quality — プロンプト評価のメトリクスとフレームワーク
- Prompt Evaluation Metrics — 精度、レイテンシ、コスト、関連性、カスタムメトリクスの詳細
ソース
- Braintrust — AI Evaluation Platform — 公式ドキュメント;スコアリング関数、実験ダッシュボード、月 500€ Team プラン要求の基礎
- PromptHub — Prompt Version Control — 製品ホームページ;バージョン管理、Web UI、月 50~200€ 価格設定要求の基礎
- Vellum — LLM Deployment and A/B Testing — 製品概要と価格設定ページ;トラフィック分割、承認ワークフロー、月 200~500€ 要求の基礎
- Promptfoo — Open-Source Prompt Testing — GitHub リポジトリとドキュメント;MIT ライセンス、YAML 設定、GitHub Actions 統合要求の基礎
- PromptQuorum — Multi-Model Dispatch — マルチモデル比較ツール;25+ モデルディスパッチと cross-モデル比較要求の基礎