開発者は、バージョン管理、CI/CD、ローカルテストという既存の開発プロセスに適合するプロンプトエンジニアリングワークフローが必要であり、別のツールエコシステムは必要ありません。ワークフローは5つのステージをカバーします：書く、ローカルでテストする、バージョン管理する、CI/CDでゲートする、本番環境で監視する。

プロンプトエンジニアリングのIDEセットアップ

📍 In One Sentence

CursorとVS Code + Continue.devは開発者のプロンプトエンジニアリングのほとんどのニーズをカバーする2つのIDEです — CursorはクラウドAPIワークフロー向け、Continue.devはオープンソースおよびローカルモデル要件向け。

💬 In Plain Terms

最も多くの時間を費やしているIDEを選びましょう。TypeScriptまたはPythonを使用してクラウドAPIを呼び出す場合、Cursorが最も摩擦が少ない。ローカルでモデルを実行するか、オープンソース要件がある場合は、VS Code + Continue.devが最適です。

2つのIDEが開発者のプロンプトエンジニアリングのほとんどのニーズをカバーします：Cursor（ネイティブAI統合、プロンプトをファーストクラス市民として扱う）とVS Code + Continue.dev（オープンソース、ローカルモデルサポート）。選択は主要言語とモデルアクセス要件によって異なります。

Cursorはプロンプトファイルをネイティブに扱います — アプリケーションコードの横のエディタで直接プロンプトを参照、編集、テストできます。OpenAI互換APIとのネイティブ統合があり、TypeScriptとPythonをよくサポートしています。

VS Code + Continue.devはオープンソースで、Ollama経由でローカルモデルをサポートし、あらゆる言語エコシステムで動作します。オープンソース要件がある場合、またはプライバシーやコストの理由でモデルをローカルで実行する必要がある場合に使用します。

💡 Cursorでプロンプト反復速度向上

CursorはエディタからClaude 4.6 Sonnetをプロンプトファイルに直接実行できます。Cursorをすでにコードに使用しているチームでは、記述-テストサイクルが分単位から秒単位に短縮されます。

ローカルプロンプトテストループ

ローカルプロンプトテストループには4つのステップがあります：プロンプトを書く、3つの代表的な入力でテストする、ベースラインと比較する、合格したらコミットする。このループは、Promptfooをローカルで設定した場合、30秒未満で完了するはずです。

ステップ1：IDEでプロンプトを書くか編集します。ステップ2：3つの代表的な入力に対してプロンプトを実行します — 典型的な入力、エッジケース、以前に障害を引き起こしたもの。ステップ3：最後にコミットされたバージョンとベースラインを比較します。ステップ4：品質が維持または改善された場合、conventional messageでコミットします。

Promptfooのローカルループ設定：`npm install -g promptfoo`でインストール、3つのテストケースとLLM-as-judge評価器を含む`promptfooconfig.yaml`をプロジェクトルートに作成、`promptfoo eval`を実行。既存のプロンプトのセットアップ時間は15分未満です。

⚠️ ベースライン比較は必須

ベースラインとの比較なしでは、エッジケースで劣化するプロンプトが絶対しきい値が十分に低ければ「合格」する可能性があります。常に最後にデプロイされたバージョンと比較してください。

バージョン管理へのプロンプトの保存

プロンプトをリポジトリルートの`/prompts`ディレクトリに`.txt`または`.ts`ファイルとして保存します。 Gitでプロンプトをバージョニングすることはコードをバージョニングするのと同じ利点があります：完全な履歴、blame、ロールバック、PRベースのレビュー。

命名規則：`task-version.txt` — 例：`customer-support-v3.txt`、`email-draft-v1.txt`。日付ではなく連番のバージョン番号を使用します。廃止されたプロンプトは削除せず`/prompts/archive/`に移動します。

プロンプト変更のコミットメッセージ形式：conventional commitsを使用します。本番環境への各成功したデプロイ後、コミットに`prompts/task/version`タグを付けます。これらのタグは本番環境でプロンプト変更を元に戻す必要があるときのロールバックターゲットとして機能します。

📌 プロンプトはコードです

プロンプトファイルをコードファイルと同じ規律で扱います：PRレビュー、名前付き著者、セマンティックバージョニング、削除しない — 代わりに/prompts/archive/に移動。

プロンプトのCI/CDゲート

すべてのプルリクエストでPromptfooまたはBraintrustを実行し、合格率がしきい値を下回った場合にビルドを失敗させるGitHub Actionsワークフローを追加します。しきい値を85%から始め、3か月の安定したテストの後に95%に引き上げます。

GitHub Actionsワークフロー構造：`pull_request`でトリガーされ、Promptfooをインストールし、`promptfoo eval --config promptfooconfig.yaml`を実行し、終了コードが0以外の場合に失敗するジョブを含む`.github/workflows/prompt-test.yml`を作成します。

しきい値戦略：大きなリグレッションを検出しながら一部の変動を許容するために85%から始めます。誤った失敗なしに3か月の安定したテストの後、95%に引き上げます。リポジトリのブランチ保護設定にprompt-testジョブを必須のステータスチェックとして追加します。

プロンプトの本番監視

プロンプト入力と出力をログに記録し、すべてのレスポンスで品質スコアラーを実行し、24時間のローリングウィンドウで10%を超える品質スコアの低下に対してアラートを設定します。ユーザーデータを処理するすべてのプロンプトを監視します。

ログに記録するもの：プロンプト識別子とバージョン、モデル名、入力トークン数、出力トークン数、ミリ秒単位のレイテンシ、評価器からの品質スコア。個人データを処理するプロンプトの場合、生の入力ではなく入力のハッシュをログに記録します。

品質スコアリングオプション：Braintrustはレスポンスごとのスコアリングとダッシュボードを備えたクラウドベースの評価器を提供します。セルフホスト型アプローチの場合、レスポンスの10%のサンプルで軽量なLLM-as-judgeコールを実行します。品質スコアが7日間のローリング平均と比較して10%以上低下した場合にアラートをトリガーします。

開発者プロンプトワークフローでよくある間違い

❌ プロンプトをアプリケーションコードに直接書く

Why it hurts: ハードコードされたプロンプトは完全なデプロイメントなしにバージョン管理、テスト、変更ができない

Fix: プロンプトを/promptsディレクトリに別ファイルとして保存し、ランタイムに読み込む。

❌ ローカルのみでテストし、CI/CDでテストしない

Why it hurts: ローカルテストは時間的プレッシャー下でスキップされる；CI/CDゲートは必須

Fix: GitHub ActionsにPromptfooテストステップを追加。合格率が85%を下回った場合にマージをブロック。

❌ 本番監視なし

Why it hurts: プロンプト品質はデプロイ後に可視性なく劣化する

Fix: 1日あたりプロンプトごとの合格率をログに記録。週次で5%低下した場合にアラートを発する。

❌ 1つのモデルでのみテスト

Why it hurts: GPT-4oで動作するプロンプトがClaude 4.6 Sonnetで失敗する可能性がある

Fix: CI/CDで少なくとも2つのモデルに対してテストスイートを実行。

重要なポイント

クラウドAPIを使用するTypeScript/PythonにはCursorを使用します。ローカルモデルやオープンソース要件にはVS Code + Continue.devを使用します。
ローカルテストループには4つのステップがあります：書く、3つの代表的な入力でテストする、ベースラインと比較する、合格したらコミットする。Promptfooで30秒未満を目標にします。
プロンプトを/promptsに.txtまたは.tsファイルとして保存します。命名規則task-version.txt。本番環境にデプロイされたバージョンをGitでタグ付けします。
合格率が85%を下回った場合にビルドを失敗させるGitHub Actions CI/CDゲートを追加します。3か月の安定したテストの後に95%に引き上げます。
本番環境では、プロンプト識別子、モデル、トークン数、レイテンシ、品質スコアをログに記録します。24時間で10%を超える品質スコアの低下に対してアラートを発します。

よくある質問

プロンプトエンジニアリングに最適なIDEはどれですか？

TypeScriptまたはPythonで主に作業し、ネイティブAI統合を希望する開発者にはCursorを推奨します。ローカルモデルサポートやオープンソース要件が必要な場合はVS Code + Continue.devを推奨します。

バージョン管理にプロンプトをどのように保存すべきですか？

プロンプトを/promptsディレクトリに.txtまたは.tsファイルとして保存します。命名規則：task-version.txt。プロンプト変更にはconventional commitsを使用します。本番環境にデプロイされたすべてのバージョンにGitタグを追加します。

プロンプトのCI/CDゲートを設定するにはどうすればよいですか？

すべてのプルリクエストでPromptfooを実行するGitHub Actionsワークフローステップを追加します。合格率がしきい値（85%）を下回った場合にビルドを失敗させるよう設定します。

本番プロンプト監視のために何をログに記録すべきですか？

プロンプト入力（PII含む場合はハッシュ）、レスポンス、レイテンシ、トークン数、品質スコアをログに記録します。少なくとも30日間保持します。

Gitリポジトリにプロンプトをどのように保存しますか？

各プロンプトを`/prompts/theme/`にテキストファイルとして保存します。命名：`classify-intent-v2.txt`。バージョン、著者、日付、モデルを含むYAMLフロントマターを追加します。

プロンプトのCI/CDゲートとは何ですか？

CI/CDゲートは、すべてのPRでプロンプトテストスイートを実行し、合格率がしきい値を下回った場合にマージをブロックする自動化されたテストステップです（通常85%）。

プロンプトエンジニアリングに最適なIDEはどれですか？

CursorはプロンプトファイルにClaude 4.6 Sonnetを直接実行できる組み込みAIアシスタンスがあるため、プロンプトエンジニアリングに最適なIDEです。VS Code + Continue.devはオープンソースツールが必要なチームに最適です。

開発者向けプロンプトエンジニアリングワークフロー：IDEセットアップ、テスト、CI/CD統合

プロンプトエンジニアリングのIDEセットアップ

ローカルプロンプトテストループ

バージョン管理へのプロンプトの保存

プロンプトのCI/CDゲート

プロンプトの本番監視

開発者プロンプトワークフローでよくある間違い

重要なポイント

よくある質問

プロンプトエンジニアリングに最適なIDEはどれですか？

バージョン管理にプロンプトをどのように保存すべきですか？

プロンプトのCI/CDゲートを設定するにはどうすればよいですか？

本番プロンプト監視のために何をログに記録すべきですか？

Gitリポジトリにプロンプトをどのように保存しますか？

プロンプトのCI/CDゲートとは何ですか？

プロンプトエンジニアリングに最適なIDEはどれですか？

関連リソース

出典