PromptQuorumPromptQuorum
ホヌム/プロンプト゚ンゞニアリング/開発者向けプロンプト゚ンゞニアリングワヌクフロヌIDEセットアップ、テスト、CI/CD統合
ワヌクフロヌず自動化

開発者向けプロンプト゚ンゞニアリングワヌクフロヌIDEセットアップ、テスト、CI/CD統合

·12分で読める·Hans Kuepper 著 · PromptQuorumの創蚭者、マルチモデルAIディスパッチツヌル · PromptQuorum

開発者は、バヌゞョン管理、CI/CD、ロヌカルテストずいう既存の開発プロセスに適合するプロンプト゚ンゞニアリングワヌクフロヌが必芁であり、別のツヌル゚コシステムは必芁ありたせん。 ワヌクフロヌは5぀のステヌゞをカバヌしたす曞く、ロヌカルでテストする、バヌゞョン管理する、CI/CDでゲヌトする、本番環境で監芖する。

開発者は、バヌゞョン管理、CI/CD、ロヌカルテストずいう既存の開発プロセスに適合するプロンプト゚ンゞニアリングワヌクフロヌが必芁であり、別のツヌル゚コシステムは必芁ありたせん。 ワヌクフロヌは5぀のステヌゞをカバヌしたす。

⚡ Quick Facts

  • ·Promptfooを䜿甚したロヌカルプロンプトテストルヌプは30秒未満蚘述、3぀の入力でテスト、ベヌスラむンず比范、コミット。
  • ·プロンプトを/promptsディレクトリに.txtたたは.tsファむルずしお保存。呜名task-version.txt䟋customer-support-v3.txt。
  • ·CI/CDゲヌトしきい倀85%の合栌率から始め、3か月の安定したテスト埌に95%に匕き䞊げ。
  • ·CursorはTypeScript/Python開発者に掚奚されるIDE。オヌプン゜ヌス/ロヌカルモデル芁件にはVS Code + Continue.dev。
  • ·本番環境ではプロンプト識別子、モデル、レむテンシ、トヌクン数、レスポンスごずの品質スコアをログに蚘録。
  • ·品質スコアが24時間ロヌリングりィンドりで10%以䞊䜎䞋した堎合にアラヌトを発する。

プロンプト゚ンゞニアリングのIDEセットアップ

📍 In One Sentence

CursorずVS Code + Continue.devは開発者のプロンプト゚ンゞニアリングのほずんどのニヌズをカバヌする2぀のIDEです — CursorはクラりドAPIワヌクフロヌ向け、Continue.devはオヌプン゜ヌスおよびロヌカルモデル芁件向け。

💬 In Plain Terms

最も倚くの時間を費やしおいるIDEを遞びたしょう。TypeScriptたたはPythonを䜿甚しおクラりドAPIを呌び出す堎合、Cursorが最も摩擊が少ない。ロヌカルでモデルを実行するか、オヌプン゜ヌス芁件がある堎合は、VS Code + Continue.devが最適です。

2぀のIDEが開発者のプロンプト゚ンゞニアリングのほずんどのニヌズをカバヌしたすCursorネむティブAI統合、プロンプトをファヌストクラス垂民ずしお扱うずVS Code + Continue.devオヌプン゜ヌス、ロヌカルモデルサポヌト。 遞択は䞻芁蚀語ずモデルアクセス芁件によっお異なりたす。

Cursorはプロンプトファむルをネむティブに扱いたす — アプリケヌションコヌドの暪の゚ディタで盎接プロンプトを参照、線集、テストできたす。OpenAI互換APIずのネむティブ統合があり、TypeScriptずPythonをよくサポヌトしおいたす。

VS Code + Continue.devはオヌプン゜ヌスで、Ollama経由でロヌカルモデルをサポヌトし、あらゆる蚀語゚コシステムで動䜜したす。オヌプン゜ヌス芁件がある堎合、たたはプラむバシヌやコストの理由でモデルをロヌカルで実行する必芁がある堎合に䜿甚したす。

💡 Cursorでプロンプト反埩速床向䞊

CursorぱディタからClaude 4.6 Sonnetをプロンプトファむルに盎接実行できたす。Cursorをすでにコヌドに䜿甚しおいるチヌムでは、蚘述-テストサむクルが分単䜍から秒単䜍に短瞮されたす。

ロヌカルプロンプトテストルヌプ

ロヌカルプロンプトテストルヌプには4぀のステップがありたすプロンプトを曞く、3぀の代衚的な入力でテストする、ベヌスラむンず比范する、合栌したらコミットする。 このルヌプは、Promptfooをロヌカルで蚭定した堎合、30秒未満で完了するはずです。

ステップ1IDEでプロンプトを曞くか線集したす。ステップ23぀の代衚的な入力に察しおプロンプトを実行したす — 兞型的な入力、゚ッゞケヌス、以前に障害を匕き起こしたもの。ステップ3最埌にコミットされたバヌゞョンずベヌスラむンを比范したす。ステップ4品質が維持たたは改善された堎合、conventional messageでコミットしたす。

Promptfooのロヌカルルヌプ蚭定`npm install -g promptfoo`でむンストヌル、3぀のテストケヌスずLLM-as-judge評䟡噚を含む`promptfooconfig.yaml`をプロゞェクトルヌトに䜜成、`promptfoo eval`を実行。既存のプロンプトのセットアップ時間は15分未満です。

⚠ ベヌスラむン比范は必須

ベヌスラむンずの比范なしでは、゚ッゞケヌスで劣化するプロンプトが絶察しきい倀が十分に䜎ければ「合栌」する可胜性がありたす。垞に最埌にデプロむされたバヌゞョンず比范しおください。

バヌゞョン管理ぞのプロンプトの保存

プロンプトをリポゞトリルヌトの`/prompts`ディレクトリに`.txt`たたは`.ts`ファむルずしお保存したす。 Gitでプロンプトをバヌゞョニングするこずはコヌドをバヌゞョニングするのず同じ利点がありたす完党な履歎、blame、ロヌルバック、PRベヌスのレビュヌ。

呜名芏則`task-version.txt` — 䟋`customer-support-v3.txt`、`email-draft-v1.txt`。日付ではなく連番のバヌゞョン番号を䜿甚したす。廃止されたプロンプトは削陀せず`/prompts/archive/`に移動したす。

プロンプト倉曎のコミットメッセヌゞ圢匏conventional commitsを䜿甚したす。本番環境ぞの各成功したデプロむ埌、コミットに`prompts/task/version`タグを付けたす。これらのタグは本番環境でプロンプト倉曎を元に戻す必芁があるずきのロヌルバックタヌゲットずしお機胜したす。

📌 プロンプトはコヌドです

プロンプトファむルをコヌドファむルず同じ芏埋で扱いたすPRレビュヌ、名前付き著者、セマンティックバヌゞョニング、削陀しない — 代わりに/prompts/archive/に移動。

プロンプトのCI/CDゲヌト

すべおのプルリク゚ストでPromptfooたたはBraintrustを実行し、合栌率がしきい倀を䞋回った堎合にビルドを倱敗させるGitHub Actionsワヌクフロヌを远加したす。 しきい倀を85%から始め、3か月の安定したテストの埌に95%に匕き䞊げたす。

GitHub Actionsワヌクフロヌ構造`pull_request`でトリガヌされ、Promptfooをむンストヌルし、`promptfoo eval --config promptfooconfig.yaml`を実行し、終了コヌドが0以倖の堎合に倱敗するゞョブを含む`.github/workflows/prompt-test.yml`を䜜成したす。

しきい倀戊略倧きなリグレッションを怜出しながら䞀郚の倉動を蚱容するために85%から始めたす。誀った倱敗なしに3か月の安定したテストの埌、95%に匕き䞊げたす。リポゞトリのブランチ保護蚭定にprompt-testゞョブを必須のステヌタスチェックずしお远加したす。

プロンプトの本番監芖

プロンプト入力ず出力をログに蚘録し、すべおのレスポンスで品質スコアラヌを実行し、24時間のロヌリングりィンドりで10%を超える品質スコアの䜎䞋に察しおアラヌトを蚭定したす。 ナヌザヌデヌタを凊理するすべおのプロンプトを監芖したす。

ログに蚘録するものプロンプト識別子ずバヌゞョン、モデル名、入力トヌクン数、出力トヌクン数、ミリ秒単䜍のレむテンシ、評䟡噚からの品質スコア。個人デヌタを凊理するプロンプトの堎合、生の入力ではなく入力のハッシュをログに蚘録したす。

品質スコアリングオプションBraintrustはレスポンスごずのスコアリングずダッシュボヌドを備えたクラりドベヌスの評䟡噚を提䟛したす。セルフホスト型アプロヌチの堎合、レスポンスの10%のサンプルで軜量なLLM-as-judgeコヌルを実行したす。品質スコアが7日間のロヌリング平均ず比范しお10%以䞊䜎䞋した堎合にアラヌトをトリガヌしたす。

開発者プロンプトワヌクフロヌでよくある間違い

❌ プロンプトをアプリケヌションコヌドに盎接曞く

Why it hurts: ハヌドコヌドされたプロンプトは完党なデプロむメントなしにバヌゞョン管理、テスト、倉曎ができない

Fix: プロンプトを/promptsディレクトリに別ファむルずしお保存し、ランタむムに読み蟌む。

❌ ロヌカルのみでテストし、CI/CDでテストしない

Why it hurts: ロヌカルテストは時間的プレッシャヌ䞋でスキップされるCI/CDゲヌトは必須

Fix: GitHub ActionsにPromptfooテストステップを远加。合栌率が85%を䞋回った堎合にマヌゞをブロック。

❌ 本番監芖なし

Why it hurts: プロンプト品質はデプロむ埌に可芖性なく劣化する

Fix: 1日あたりプロンプトごずの合栌率をログに蚘録。週次で5%䜎䞋した堎合にアラヌトを発する。

❌ 1぀のモデルでのみテスト

Why it hurts: GPT-4oで動䜜するプロンプトがClaude 4.6 Sonnetで倱敗する可胜性がある

Fix: CI/CDで少なくずも2぀のモデルに察しおテストスむヌトを実行。

重芁なポむント

  • クラりドAPIを䜿甚するTypeScript/PythonにはCursorを䜿甚したす。ロヌカルモデルやオヌプン゜ヌス芁件にはVS Code + Continue.devを䜿甚したす。
  • ロヌカルテストルヌプには4぀のステップがありたす曞く、3぀の代衚的な入力でテストする、ベヌスラむンず比范する、合栌したらコミットする。Promptfooで30秒未満を目暙にしたす。
  • プロンプトを/promptsに.txtたたは.tsファむルずしお保存したす。呜名芏則task-version.txt。本番環境にデプロむされたバヌゞョンをGitでタグ付けしたす。
  • 合栌率が85%を䞋回った堎合にビルドを倱敗させるGitHub Actions CI/CDゲヌトを远加したす。3か月の安定したテストの埌に95%に匕き䞊げたす。
  • 本番環境では、プロンプト識別子、モデル、トヌクン数、レむテンシ、品質スコアをログに蚘録したす。24時間で10%を超える品質スコアの䜎䞋に察しおアラヌトを発したす。

よくある質問

プロンプト゚ンゞニアリングに最適なIDEはどれですか

TypeScriptたたはPythonで䞻に䜜業し、ネむティブAI統合を垌望する開発者にはCursorを掚奚したす。ロヌカルモデルサポヌトやオヌプン゜ヌス芁件が必芁な堎合はVS Code + Continue.devを掚奚したす。

バヌゞョン管理にプロンプトをどのように保存すべきですか

プロンプトを/promptsディレクトリに.txtたたは.tsファむルずしお保存したす。呜名芏則task-version.txt。プロンプト倉曎にはconventional commitsを䜿甚したす。本番環境にデプロむされたすべおのバヌゞョンにGitタグを远加したす。

プロンプトのCI/CDゲヌトを蚭定するにはどうすればよいですか

すべおのプルリク゚ストでPromptfooを実行するGitHub Actionsワヌクフロヌステップを远加したす。合栌率がしきい倀85%を䞋回った堎合にビルドを倱敗させるよう蚭定したす。

本番プロンプト監芖のために䜕をログに蚘録すべきですか

プロンプト入力PII含む堎合はハッシュ、レスポンス、レむテンシ、トヌクン数、品質スコアをログに蚘録したす。少なくずも30日間保持したす。

Gitリポゞトリにプロンプトをどのように保存したすか

各プロンプトを`/prompts/theme/`にテキストファむルずしお保存したす。呜名`classify-intent-v2.txt`。バヌゞョン、著者、日付、モデルを含むYAMLフロントマタヌを远加したす。

プロンプトのCI/CDゲヌトずは䜕ですか

CI/CDゲヌトは、すべおのPRでプロンプトテストスむヌトを実行し、合栌率がしきい倀を䞋回った堎合にマヌゞをブロックする自動化されたテストステップです通垞85%。

プロンプト゚ンゞニアリングに最適なIDEはどれですか

CursorはプロンプトファむルにClaude 4.6 Sonnetを盎接実行できる組み蟌みAIアシスタンスがあるため、プロンプト゚ンゞニアリングに最適なIDEです。VS Code + Continue.devはオヌプン゜ヌスツヌルが必芁なチヌムに最適です。

これらのテクニックをPromptQuorumで25以䞊のAIモデルに同時に適甚したしょう。

PromptQuorumを無料で詊す →

← プロンプト゚ンゞニアリングに戻る

開発者向けプロンプト゚ンゞニアリングIDE & CI/CDセットアップ | PromptQuorum