Skip to main content
PromptQuorumPromptQuorum
Home/Prompt Engineering/Prompt ํ‰๊ฐ€ ์ง€ํ‘œ: ๋ฌด์—‡์„ ์ธก์ •ํ•˜๊ณ  ์–ด๋–ป๊ฒŒ ํ•ฉ๋‹ˆ๊นŒ
Techniques

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ: ๋ฌด์—‡์„ ์ธก์ •ํ•˜๊ณ  ์–ด๋–ป๊ฒŒ ํ•ฉ๋‹ˆ๊นŒ

ยท8๋ถ„ ๋ถ„๋Ÿ‰ยทBy Hans Kuepper ยท Founder of PromptQuorum, multi-model AI dispatch tool ยท PromptQuorum

Prompt์— ์ž˜๋ชป๋œ ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ์„ ํƒํ•˜๋ฉด ์‹ค์ œ ํ”„๋กœ๋•์…˜ ์‹คํŒจ๋ฅผ ์ˆจ๊ธฐ๋Š” ์˜คํ•ด์˜ ์†Œ์ง€๊ฐ€ ์žˆ๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜์˜ต๋‹ˆ๋‹ค. BLEU ์ ์ˆ˜๋Š” JSON ์ถœ๋ ฅ์— ์˜๋ฏธ๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค. ์ด์ง„ pass/fail์€ ๋ฏธ๋ฌ˜ํ•œ ์ƒ์„ฑ ํ’ˆ์งˆ์— ๋Œ€ํ•ด ์•„๋ฌด๊ฒƒ๋„ ๋งํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ์ž‘๋™ํ•˜๋Š” ์ง€ํ‘œ๋Š” prompt๊ฐ€ ๋ฌด์—‡์„ ์ƒ์„ฑํ•˜๋А๋ƒ์— ์ „์ ์œผ๋กœ ๋‹ฌ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค.

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” prompt๊ฐ€ ์˜๋„ํ•œ ์ถœ๋ ฅ์„ ์•ˆ์ •์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ์ •๋Ÿ‰์  ์‹ ํ˜ธ์ž…๋‹ˆ๋‹ค. ์˜ฌ๋ฐ”๋ฅธ ์ง€ํ‘œ๋Š” ์ถœ๋ ฅ ์œ ํ˜•์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง‘๋‹ˆ๋‹ค: ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ์—๋Š” pass rate, ๋ฒˆ์—ญ์—๋Š” BLEU, ์˜์—ญ ์ž‘์—…์—๋Š” ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ, ๋ฏธ๋ฌ˜ํ•œ ์ž์œ  ํ…์ŠคํŠธ ์ƒ์„ฑ์—๋Š” LLM-as-judge.

Key Takeaways

  • Pass rate(์˜ฌ๋ฐ”๋ฅธ ์ถœ๋ ฅ / ์ด๊ณ„)๋Š” ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ์ด ์žˆ๋Š” ํ”„๋กœ๋•์…˜ prompt์— ๊ฐ€์žฅ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค
  • BLEU ์ ์ˆ˜๋Š” n-๊ทธ๋žจ ๊ฒน์นจ์„ ์ธก์ •ํ•˜๋ฉฐ ๋ฒˆ์—ญ ๋ฐ ์š”์•ฝ ์ž‘์—…์—๋งŒ ์˜๋ฏธ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค
  • ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ(์ž„๋ฒ ๋”ฉ์˜ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ์„ฑ)์€ ์˜์—ญ ๋ฐ ์žฌ์ž‘์„ฑ ์ž‘์—…์—์„œ BLEU๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค
  • LLM-as-judge๋Š” GPT-5.5 ๋˜๋Š” Claude Opus 4.8์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฏธ๋ฌ˜ํ•œ ์ž์œ  ํ…์ŠคํŠธ ์ถœ๋ ฅ์„ ๋Œ€๊ทœ๋ชจ๋กœ ์ ์ˆ˜ํ™”ํ•ฉ๋‹ˆ๋‹ค
  • Prompt ๋ฒ„์ „๋ณ„ pass rate๋ฅผ ์ถ”์ ํ•˜๊ณ  5ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝ ์‹œ ๊ฒฝ๋ณด๋ฅผ ์šธ๋ฆฌ์‹ญ์‹œ์˜ค
  • ๋ชจ๋“  ์ถœ๋ ฅ ์œ ํ˜•์„ ์ปค๋ฒ„ํ•˜๋Š” ๋‹จ์ผ ์ง€ํ‘œ๋Š” ์—†์Šต๋‹ˆ๋‹ค โ€” prompt์˜ ์˜๋„ํ•œ ์ถœ๋ ฅ ํ˜•์‹์— ๋”ฐ๋ผ ์„ ํƒํ•˜์‹ญ์‹œ์˜ค

โšก Quick Facts

  • ยทPass rate๋Š” ํ”„๋กœ๋•์…˜ ์‹คํŒจ์œจ์— ์ง์ ‘ ๋งคํ•‘๋ฉ๋‹ˆ๋‹ค: 90% = ์š”์ฒญ์˜ 10%๊ฐ€ ์‹คํŒจ
  • ยทBLEU ์ ์ˆ˜๋Š” 2002๋…„ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์„ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์œผ๋ฉฐ, ์ผ๋ฐ˜ AI ์ถœ๋ ฅ์„ ์œ„ํ•œ ๊ฒƒ์ด ์•„๋‹™๋‹ˆ๋‹ค
  • ยท0.85 ์ด์ƒ์˜ ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ์€ ์ผ๋ฐ˜์ ์œผ๋กœ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ๋™๋“ฑํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค
  • ยทLLM-as-judge๋Š” ์‹œ๊ฐ„๋‹น ์ˆ˜์ฒœ ๊ฑด์˜ ํ‰๊ฐ€๋กœ ํ™•์žฅ๋ฉ๋‹ˆ๋‹ค
  • ยทPass rate๊ฐ€ 5ํฌ์ธํŠธ ํ•˜๋ฝํ•˜๋Š” ๊ฒƒ์ด ํ‘œ์ค€ ํšŒ๊ท€ ๊ฒฝ๋ณด ์ž„๊ณ„๊ฐ’์ž…๋‹ˆ๋‹ค
  • ยทGPT-5.5์™€ Claude ๋ชจ๋ธ์€ ๋™์ผํ•œ prompt ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ 10-20ํฌ์ธํŠธ ์ฐจ์ด๊ฐ€ ๋‚  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

๐Ÿ“ In One Sentence

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” prompt๊ฐ€ ๋Œ€ํ‘œ์ ์ธ ํ…Œ์ŠคํŠธ ์„ธํŠธ์—์„œ ์˜๋„ํ•œ ์ถœ๋ ฅ์„ ์•ˆ์ •์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ์ •๋Ÿ‰์  ์‹ ํ˜ธ์ž…๋‹ˆ๋‹ค.

๐Ÿ’ฌ In Plain Terms

AI๋ฅผ ์œ„ํ•œ ๋‹จ์œ„ ํ…Œ์ŠคํŠธ๋ผ๊ณ  ์ƒ๊ฐํ•˜์‹ญ์‹œ์˜ค: "์˜ฌ๋ฐ”๋ฆ„"์ด ๋ฌด์—‡์ธ์ง€ ์ •์˜ํ•˜๊ณ , 20๊ฐœ ์ด์ƒ์˜ ์˜ˆ์‹œ์— prompt๋ฅผ ์‹คํ–‰ํ•˜๊ณ , pass rate๋ฅผ ์ ์ˆ˜ํ™”ํ•ฉ๋‹ˆ๋‹ค. 95% ์ ์ˆ˜๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž ์š”์ฒญ์˜ 5%๊ฐ€ ์—ฌ์ „ํžˆ ์‹คํŒจํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” prompt๊ฐ€ ์ค‘์š”ํ•œ ์ž…๋ ฅ์— ๊ฑธ์ณ ์˜๋„ํ•œ ์ถœ๋ ฅ์„ ์•ˆ์ •์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋Š”์ง€ ์•Œ๋ ค์ฃผ๋Š” ์ •๋Ÿ‰์  ์‹ ํ˜ธ์ž…๋‹ˆ๋‹ค. ์ง€ํ‘œ ์—†์ด๋Š” prompt ํ‰๊ฐ€๊ฐ€ ์ฃผ๊ด€์ ์ž…๋‹ˆ๋‹ค. ์˜ฌ๋ฐ”๋ฅธ ์ง€ํ‘œ๋Š” prompt๊ฐ€ ๋ฌด์—‡์„ ์ƒ์„ฑํ•ด์•ผ ํ•˜๋Š”์ง€์— ๋‹ฌ๋ ค ์žˆ์Šต๋‹ˆ๋‹ค. ์ž‘์—…์— ์˜ฌ๋ฐ”๋ฅธ ์ง€ํ‘œ๋ฅผ ์„ ํƒํ•˜๋ฉด ์ฒด๊ณ„์ ์œผ๋กœ prompt ํ’ˆ์งˆ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ’ก ํ”„๋กœ ํŒ

๋ณต์žกํ•œ ์ง€ํ‘œ๋ฅผ ์ถ”๊ฐ€ํ•˜๊ธฐ ์ „์— pass rate๋กœ ์‹œ์ž‘ํ•˜์‹ญ์‹œ์˜ค. ์ด์ง„ ์ •ํ™•/๋ถ€์ •ํ™•์ด 1-5 ๋ฃจ๋ธŒ๋ฆญ๋ณด๋‹ค ๋” ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.

๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ vs ์ž์œ  ํ…์ŠคํŠธ vs ์ฝ”๋“œ์— ์–ด๋–ค ์ง€ํ‘œ๊ฐ€ ์ ์šฉ๋ฉ๋‹ˆ๊นŒ?

์ถœ๋ ฅ ์œ ํ˜•์ด ์–ด๋–ค ์ง€ํ‘œ๊ฐ€ ์œ ํšจํ•œ์ง€ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. JSON ์ถœ๋ ฅ์— BLEU๋ฅผ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ์ฐฝ์˜์  ์ƒ์„ฑ ์ž‘์—…์— pass/fail์„ ์‚ฌ์šฉํ•˜๋ฉด ์˜๋ฏธ ์—†๋Š” ์ ์ˆ˜๊ฐ€ ๋‚˜์˜ต๋‹ˆ๋‹ค.

์ถœ๋ ฅ ์œ ํ˜•๊ถŒ์žฅ ์ง€ํ‘œ์ด์œ 
JSON / ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ์ด์ง„ pass/fail์œ ํšจํ•˜๊ณ  ์˜ฌ๋ฐ”๋ฅด๊ฑฐ๋‚˜ ๊ทธ๋ ‡์ง€ ์•Š๊ฑฐ๋‚˜. ๋ถ€๋ถ„ ์ ์ˆ˜ ์—†์Œ.
๋ถ„๋ฅ˜์ •ํ™•๋„ (์ด์ง„)์ž…๋ ฅ๋‹น ํ•˜๋‚˜์˜ ์˜ฌ๋ฐ”๋ฅธ ๋ ˆ์ด๋ธ”.
๋ฒˆ์—ญ / ์š”์•ฝBLEU ๋˜๋Š” ROUGE๋น„๊ต๋ฅผ ์œ„ํ•œ ์ฐธ์กฐ ํ…์ŠคํŠธ๊ฐ€ ์žˆ์Œ.
์˜์—ญ / ์žฌ์ž‘์„ฑ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ์˜๋ฏธ ๋ณด์กด, ๋‹จ์–ด๋ณ„ ์ผ์น˜ ์•„๋‹˜.
์ž์œ  ํ…์ŠคํŠธ / ์ฐฝ์˜์ LLM-as-judge๋ฏธ๋ฌ˜ํ•œ ๋ฃจ๋ธŒ๋ฆญ ํ•„์š”, ์ฐธ์กฐ ํ…์ŠคํŠธ ์—†์Œ.
์ฝ”๋“œ ์ƒ์„ฑํ…Œ์ŠคํŠธ pass rate์ƒ์„ฑ๋œ ์ฝ”๋“œ์— ๋‹จ์œ„ ํ…Œ์ŠคํŠธ๋ฅผ ์‹คํ–‰ํ•จ.

๐Ÿ“Œ ํ•ต์‹ฌ ํฌ์ธํŠธ

์ถœ๋ ฅ ์œ ํ˜•์ด ์ง€ํ‘œ ์„ ํƒ์„ ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ€์žฅ ํ”ํ•œ ์‹ค์ˆ˜๋Š” ๋ฒˆ์—ญ์ด ์•„๋‹Œ ์ž‘์—…์— BLEU๋ฅผ ์ ์šฉํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค โ€” ๋‹จ์–ด ๊ฒน์นจ์„ ์ธก์ •ํ•˜๋ฉฐ ํ˜•์‹ ์ค€์ˆ˜๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค.

Pass rate๋ž€ ๋ฌด์—‡์ด๋ฉฐ ์™œ ๊ฐ€์žฅ ์œ ์šฉํ•œ ์ง€ํ‘œ์ž…๋‹ˆ๊นŒ?

Pass rate๋Š” prompt ์ถœ๋ ฅ์ด ์ •์˜๋œ ์„ฑ๊ณต ๊ธฐ์ค€์„ ์ถฉ์กฑํ•˜๋Š” ํ…Œ์ŠคํŠธ ์ž…๋ ฅ์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค โ€” ํ”„๋กœ๋•์…˜ ์‹คํŒจ์œจ์— ์ง์ ‘ ๋งคํ•‘๋˜๊ธฐ ๋•Œ๋ฌธ์— ๊ฐ€์žฅ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค. Pass rate 92%๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž ์š”์ฒญ์˜ 8%๊ฐ€ ์‹คํŒจํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.

Pass rate = ํ†ต๊ณผํ•œ ์ถœ๋ ฅ / ์ด ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค

๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ์˜ ๊ฒฝ์šฐ, ํ…Œ์ŠคํŠธ๋ฅผ ์‹คํ–‰ํ•˜๊ธฐ ์ „์— "ํ†ต๊ณผ"๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์ •์˜ํ•˜์‹ญ์‹œ์˜ค: ์œ ํšจํ•œ JSON, ํ•„์ˆ˜ ํ•„๋“œ ์กด์žฌ, ํ—ˆ์šฉ๋œ ์—ด๊ฑฐํ˜• ๋‚ด์˜ ๊ฐ’, ์ง€์ •๋œ ํ•œ๋„ ๋ฏธ๋งŒ์˜ ๊ธธ์ด.

Prompt ๋ฒ„์ „๋ณ„ pass rate๋ฅผ ์ถ”์ ํ•˜์‹ญ์‹œ์˜ค. 5ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝ์€ ํšŒ๊ท€์ž…๋‹ˆ๋‹ค. 10ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝ์€ ํ”„๋กœ๋•์…˜ ๋ฐฐํฌ๋ฅผ ์ฐจ๋‹จํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

โš ๏ธ ๊ฒฝ๊ณ 

Pass rate 90%๋Š” ์‹ค์ œ ์‚ฌ์šฉ์ž ์š”์ฒญ์˜ 10%๊ฐ€ ์‹คํŒจํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ๋Œ€์‹œ๋ณด๋“œ์—์„œ ๋ณด๊ธฐ ์ข‹์€ ๊ฒƒ์ด ์•„๋‹Œ ํ”„๋กœ๋•์…˜ ์œ„ํ—˜ ํ—ˆ์šฉ ๋ฒ”์œ„๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํšŒ๊ท€ ์ž„๊ณ„๊ฐ’์„ ์„ค์ •ํ•˜์‹ญ์‹œ์˜ค.

BLEU ์ ์ˆ˜๋ž€ ๋ฌด์—‡์ด๋ฉฐ ์–ธ์ œ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

BLEU(Bilingual Evaluation Understudy) ์ ์ˆ˜๋Š” ๋ชจ๋ธ ์ถœ๋ ฅ๊ณผ ์ฐธ์กฐ ํ…์ŠคํŠธ ๊ฐ„์˜ n-๊ทธ๋žจ ๊ฒน์นจ์„ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์˜ ํ‘œ์ค€ ์ง€ํ‘œ์ด๋ฉฐ ์ถœ๋ ฅ์ด ์ฐธ์กฐ์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ผ์น˜ํ•ด์•ผ ํ•˜๋Š” ๋ชจ๋“  ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

BLEU๊ฐ€ ์˜คํ•ด์˜ ์†Œ์ง€๊ฐ€ ์žˆ๋Š” ๊ฒฝ์šฐ:

  • JSON ๋˜๋Š” ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ: BLEU๋Š” ํ˜•์‹ ํ† ํฐ์„ ์ ์ˆ˜ํ™”ํ•˜๋ฉฐ ์˜๋ฏธ๋ก ์  ์ •ํ™•์„ฑ์„ ์ ์ˆ˜ํ™”ํ•˜์ง€ ์•Š์Œ
  • ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ: ๋ชจ๋“  ์ง€์‹œ๋ฅผ ๋”ฐ๋ฅด์ง€๋งŒ ๋‹ค๋ฅด๊ฒŒ ์˜์—ญํ•œ prompt๋Š” BLEU์—์„œ ๋‚ฎ์€ ์ ์ˆ˜๋ฅผ ๋ฐ›์Œ
  • ์ฐฝ์˜์  ์ƒ์„ฑ: BLEU๋Š” ํ’ˆ์งˆ์ด ๋†’์„ ๋•Œ๋„ ์–ดํœ˜ ๋‹ค์–‘์„ฑ์„ ๋ฒŒ์ ํ•จ

BLEU๊ฐ€ ์ ํ•ฉํ•œ ๊ฒฝ์šฐ: ๊ธˆ ์ฐธ์กฐ๊ฐ€ ์žˆ๋Š” ๋ฒˆ์—ญ ์ž‘์—…, ์ธ๊ฐ„์ด ์ž‘์„ฑํ•œ ์š”์•ฝ๊ณผ ๋น„๊ตํ•œ ์š”์•ฝ, ์˜ˆ์ƒ ๋‹จ์–ด ๊ทธ๋Œ€๋กœ์˜ ๋‹ต๋ณ€์ด ์žˆ๋Š” ์ถ”์ถœ์  QA.

๐Ÿ” ์•Œ๊ณ  ๊ณ„์…จ์Šต๋‹ˆ๊นŒ?

BLEU๋Š” 2002๋…„ ๊ธฐ๊ณ„ ๋ฒˆ์—ญ์„ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฐœ๋ฐฉํ˜• ์ƒ์„ฑ์— ์•Œ๋ ค์ง„ ํ•œ๊ณ„๊ฐ€ ์žˆ์ง€๋งŒ MT ๋ฒค์น˜๋งˆํฌ์˜ ํ‘œ์ค€์œผ๋กœ ๋‚จ์•„ ์žˆ์Šต๋‹ˆ๋‹ค.

์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ ์ ์ˆ˜๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ์€ ์ž„๋ฒ ๋”ฉ์˜ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ์„ฑ์„ ๊ณ„์‚ฐํ•˜์—ฌ ๋‘ ํ…์ŠคํŠธ๊ฐ€ ์˜๋ฏธ์ƒ ์–ผ๋งˆ๋‚˜ ๊ฐ€๊นŒ์šด์ง€ ์ธก์ •ํ•ฉ๋‹ˆ๋‹ค. ๋‹จ์–ด ์„ ํƒ์ด ์•„๋‹Œ ์˜๋ฏธ๋ฅผ ํฌ์ฐฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜์—ญ ๋ฐ ์žฌ์ž‘์„ฑ ์ž‘์—…์—์„œ BLEU๋ฅผ ๋Šฅ๊ฐ€ํ•ฉ๋‹ˆ๋‹ค.

์ž‘๋™ ๋ฐฉ์‹: OpenAI text-embedding-3-small ๋˜๋Š” ๋กœ์ปฌ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋ธ ์ถœ๋ ฅ๊ณผ ์ฐธ์กฐ๋ฅผ ์ž„๋ฒ ๋”ฉํ•˜๊ณ , ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ์„ฑ์„ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค. 0.85 ์ด์ƒ์˜ ์ ์ˆ˜๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ๋™๋“ฑํ•œ ์ฝ˜ํ…์ธ ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

ํ•œ๊ณ„: ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ์€ ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ์„ ํ™•์ธํ•˜์ง€ ์•Š๊ณ , ํ˜•์‹ ์œ„๋ฐ˜์„ ๊ฐ์ง€ํ•˜์ง€ ์•Š์œผ๋ฉฐ, ํ™˜๊ฐ์ด ์˜ˆ์ƒ ๋‹ต๋ณ€๊ณผ ์˜๋ฏธ๋ก ์ ์œผ๋กœ ์œ ์‚ฌํ•˜๋ฉด ๋†’์€ ์ ์ˆ˜๋ฅผ ์ค„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ’ก ํ”„๋กœ ํŒ

OpenAI text-embedding-3-small์€ ์œ ์‚ฌ์„ฑ ์ ์ˆ˜๋ฅผ ์œ„ํ•œ ๊ฐ€์žฅ ๋น ๋ฅด๊ณ  ์ €๋ ดํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๊ธฐ์ˆ /์ฝ”๋“œ ์ฝ˜ํ…์ธ ์˜ ๊ฒฝ์šฐ ์ฝ”๋“œ๋ณ„ ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์„ ๊ณ ๋ คํ•˜์‹ญ์‹œ์˜ค.

LLM-as-judge ํ‰๊ฐ€๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

LLM-as-judge๋Š” ์œ ๋Šฅํ•œ ๋ชจ๋ธ โ€” ์ผ๋ฐ˜์ ์œผ๋กœ GPT-5.5 ๋˜๋Š” Claude Opus 4.8 โ€” ์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ฃจ๋ธŒ๋ฆญ์— ๋”ฐ๋ผ ์ถœ๋ ฅ์„ ์ ์ˆ˜ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด๊ฒƒ์€ ์ธ๊ฐ„ ๊ฒ€ํ†  ์—†์ด ์ˆ˜์ฒœ ๊ฑด์˜ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค๋กœ ํ‰๊ฐ€๋ฅผ ํ™•์žฅํ•˜๊ณ  ์ด์ง„ ์ง€ํ‘œ๊ฐ€ ํฌ์ฐฉํ•  ์ˆ˜ ์—†๋Š” ํ’ˆ์งˆ ์ฐจ์›์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค: ์ผ๊ด€์„ฑ, ํ†ค, ์™„์ „์„ฑ, ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ.

์ฐจ์›์žฅ์ ํ•œ๊ณ„
๊ทœ๋ชจ์‹œ๊ฐ„๋‹น ์ˆ˜์ฒœ ๊ฑด์˜ ์ผ€์ด์Šค๋ณผ๋ฅจ์— ๋”ฐ๋ผ API ๋น„์šฉ ์ฆ๊ฐ€
๋ฏธ๋ฌ˜ํ•จ๋ณต์žกํ•œ ๋ฃจ๋ธŒ๋ฆญ ์ฒ˜๋ฆฌ์ž์ฒด ์ถœ๋ ฅ ์Šคํƒ€์ผ์— ๋Œ€ํ•œ ๋ชจ๋ธ ํŽธํ–ฅ
์ผ๊ด€์„ฑ์žฌํ˜„ ๊ฐ€๋Šฅํ•œ ์ ์ˆ˜ํ™”ํŒ์‚ฌ prompt ํ‘œํ˜„์— ๋ฏผ๊ฐ
๋น„์šฉ๋Œ€๊ทœ๋ชจ์—์„œ ์ธ๊ฐ„ ๊ฒ€ํ† ๋ณด๋‹ค ์ €๋ ด์†Œ๊ทœ๋ชจ ํ…Œ์ŠคํŠธ ์„ธํŠธ์—๋Š” ๋น„์Œˆ

โš ๏ธ ๊ฒฝ๊ณ 

LLM-as-judge์—๋Š” ์ž๊ธฐ ํŽธํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค: ๋ชจ๋ธ์ด ์ž์‹ ์˜ ์Šคํƒ€์ผ๊ณผ ์œ ์‚ฌํ•œ ์ถœ๋ ฅ์„ ๋” ๋†’์ด ํ‰๊ฐ€ํ•ฉ๋‹ˆ๋‹ค. ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ๊ณผ ๋‹ค๋ฅธ ๋ชจ๋ธ์„ ํŒ์‚ฌ๋กœ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.

โŒ ๋ชจํ˜ธํ•œ ๋ฃจ๋ธŒ๋ฆญ

์ด ์ถœ๋ ฅ์˜ ํ’ˆ์งˆ์„ 1์—์„œ 5๊นŒ์ง€ ํ‰๊ฐ€ํ•˜์‹ญ์‹œ์˜ค.

โœ… ๋ช…์‹œ์  ๋‹ค์ฐจ์› ๋ฃจ๋ธŒ๋ฆญ

์ด ์ถœ๋ ฅ์„ 3๊ฐ€์ง€ ์ฐจ์›์—์„œ ์ ์ˆ˜ํ™”ํ•˜์‹ญ์‹œ์˜ค(๊ฐ 1-3): (1) ์‚ฌ์‹ค์  ์ •ํ™•์„ฑ โ€” ์ฐธ์กฐ ์‚ฌ์‹ค๊ณผ ์ผ์น˜ํ•ฉ๋‹ˆ๊นŒ? (2) ์™„์ „์„ฑ โ€” ๋ชจ๋“  ํ•„์ˆ˜ ํ•„๋“œ๊ฐ€ ๋‹ค๋ฃจ์–ด์กŒ์Šต๋‹ˆ๊นŒ? (3) ํ†ค โ€” ์ ์ ˆํžˆ ์ „๋ฌธ์ ์ž…๋‹ˆ๊นŒ? JSON ๋ฐ˜ํ™˜: {"accuracy": X, "completeness": X, "tone": X, "total": X, "reason": "..."}

์ง€ํ‘œ ํšŒ๊ท€๋ฅผ ์–ด๋–ป๊ฒŒ ๊ฐ์ง€ํ•ฉ๋‹ˆ๊นŒ?

Prompt ๋ฒ„์ „๋ณ„ ๊ธฐ๋ณธ ์ง€ํ‘œ๋ฅผ ์ถ”์ ํ•˜๊ณ  ์„ค์ •๋œ ๊ธฐ์ค€์„ ์—์„œ 5ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝํ•  ๋•Œ ๊ฒฝ๋ณด๋ฅผ ์šธ๋ฆฌ์‹ญ์‹œ์˜ค. ๋ชจ๋“  prompt ๋ณ€๊ฒฝ, ๋ชจ๋ธ ์—…๋ฐ์ดํŠธ, ๋˜๋Š” temperature ์กฐ์ • ์ „ํ›„์— ๋™์ผํ•œ ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ์‹คํ–‰ํ•˜์‹ญ์‹œ์˜ค.

prompt ๊ฐ์‚ฌ ๋ฐ ํšŒ๊ท€ ์œ„ํ—˜ ๊ฐ์ง€๋ฅผ ๊ตฌํ˜„ํ•  ๋•Œ ์ด ์›Œํฌํ”Œ๋กœ์šฐ๋ฅผ ๋”ฐ๋ฅด์‹ญ์‹œ์˜ค:

1. ํ˜„์žฌ ์ง€ํ‘œ ์ ์ˆ˜๋ฅผ ๊ธฐ์ค€์„ ์œผ๋กœ ๊ธฐ๋กํ•ฉ๋‹ˆ๋‹ค (์˜ˆ: pass rate = 91%) 2. Prompt ๋ณ€๊ฒฝ์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค 3. ์ „์ฒด ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ๋‹ค์‹œ ์‹คํ–‰ํ•ฉ๋‹ˆ๋‹ค 4. ์ƒˆ ์ ์ˆ˜๋ฅผ ๊ธฐ์ค€์„ ๊ณผ ๋น„๊ตํ•ฉ๋‹ˆ๋‹ค 5. ํ•˜๋ฝ > 5ํฌ์ธํŠธ: ๋ณ€๊ฒฝ์„ ์ฐจ๋‹จํ•˜๊ณ , ์กฐ์‚ฌํ•˜๊ณ , ์ˆ˜์ •ํ•ฉ๋‹ˆ๋‹ค

CI/CD์—์„œ ์ž๋™ํ™”๋œ ํšŒ๊ท€ ๊ฐ์ง€๋ฅผ ์œ„ํ•ด Promptfoo ๊ฐ™์€ ๋„๊ตฌ๊ฐ€ GitHub Actions์™€ ํ†ตํ•ฉ๋˜์–ด pass rate๊ฐ€ ์ž„๊ณ„๊ฐ’ ์•„๋ž˜๋กœ ๋–จ์–ด์ง€๋ฉด PR์„ ์‹คํŒจ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ› ๏ธ ๋ชจ๋ฒ” ์‚ฌ๋ก€

Promptfoo๋ฅผ GitHub Actions์™€ ํ†ตํ•ฉํ•˜์—ฌ pass rate๊ฐ€ ์ž„๊ณ„๊ฐ’ ์•„๋ž˜๋กœ ๋–จ์–ด์ง€๋ฉด ์ž๋™์œผ๋กœ PR์„ ์‹คํŒจ์‹œํ‚ค์‹ญ์‹œ์˜ค. ์ด๊ฒƒ์€ prompt ํšŒ๊ท€๊ฐ€ ํ”„๋กœ๋•์…˜์— ๋„๋‹ฌํ•˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ ์ธก์ •์„ ์‹œ์ž‘ํ•˜๋Š” ๋ฐฉ๋ฒ•

  1. 1
    Prompt ์ถœ๋ ฅ ์œ ํ˜•์„ ํŒŒ์•…ํ•˜์‹ญ์‹œ์˜ค: ๊ตฌ์กฐํ™”๋œ ๋ฐ์ดํ„ฐ, ๋ถ„๋ฅ˜, ๋ฒˆ์—ญ/์š”์•ฝ, ์˜์—ญ, ์ž์œ  ํ…์ŠคํŠธ, ์ฝ”๋“œ.
  2. 2
    ์ ์ ˆํ•œ ์ง€ํ‘œ๋ฅผ ์„ ํƒํ•˜์‹ญ์‹œ์˜ค: ๊ตฌ์กฐํ™”๋œ ๊ฒƒ์€ ์ด์ง„ pass/fail, ๋ฒˆ์—ญ/์š”์•ฝ์€ BLEU, ์˜์—ญ์€ ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ, ์ž์œ  ํ…์ŠคํŠธ๋Š” LLM-as-judge, ์ฝ”๋“œ๋Š” ํ…Œ์ŠคํŠธ pass rate.
  3. 3
    ํ…Œ์ŠคํŠธ๋ฅผ ์‹คํ–‰ํ•˜๊ธฐ ์ „์— ์˜ˆ์ƒ ์ถœ๋ ฅ ๋˜๋Š” ํ†ต๊ณผ ๊ธฐ์ค€์ด ์ž‘์„ฑ๋œ 20๊ฐœ ์ด์ƒ์˜ ์ž…๋ ฅ์œผ๋กœ ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ๊ตฌ์ถ•ํ•˜์‹ญ์‹œ์˜ค.
  4. 4
    ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ์‹คํ–‰ํ•˜๊ณ  ๊ธฐ์ค€์„  ์ง€ํ‘œ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ•˜์‹ญ์‹œ์˜ค.
  5. 5
    ํšŒ๊ท€ ๊ฒฝ๋ณด ์ž„๊ณ„๊ฐ’์„ ์„ค์ •ํ•˜์‹ญ์‹œ์˜ค: ๊ธฐ์ค€์„ ์—์„œ 5ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝ ์‹œ ๊ฒฝ๋ณด.
  6. 6
    Promptfoo, Braintrust, ๋˜๋Š” PromptQuorum์„ ์‚ฌ์šฉํ•˜์—ฌ ๋ชจ๋“  prompt ๋ณ€๊ฒฝ ์‹œ ์ž๋™์œผ๋กœ ์ง€ํ‘œ๋ฅผ ์‹คํ–‰ํ•˜์‹ญ์‹œ์˜ค.

๐Ÿ“Œ ํ•ต์‹ฌ ํฌ์ธํŠธ

Prompt๋ฅผ ์ž‘์„ฑํ•œ ํ›„๊ฐ€ ์•„๋‹ˆ๋ผ ์ „์— ํ…Œ์ŠคํŠธ ์„ธํŠธ๋ฅผ ๊ตฌ์ถ•ํ•˜์‹ญ์‹œ์˜ค. ์‚ฌํ›„์— ์ •์˜๋œ ํ…Œ์ŠคํŠธ ์ผ€์ด์Šค๋Š” ์‹ค์ œ ์ž…๋ ฅ ๋ถ„ํฌ๊ฐ€ ์•„๋‹Œ ํ˜„์žฌ prompt์™€ ์ผ์น˜ํ•˜๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ์—์„œ ํ”ผํ•ด์•ผ ํ•  ์‹ค์ˆ˜๋Š” ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

  • ์‹ค์ˆ˜: JSON ๋˜๋Š” ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ prompt์— BLEU ์‚ฌ์šฉ. ํ•ด๊ฒฐ์ฑ…: BLEU๋Š” n-๊ทธ๋žจ ๊ฒน์นจ์„ ์ธก์ •ํ•˜๋ฉฐ ํ˜•์‹ ์ค€์ˆ˜๋‚˜ ์ง€์‹œ ์ค€์ˆ˜๋ฅผ ์ธก์ •ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ์—๋Š” ์ด์ง„ pass/fail์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค.
  • ์‹ค์ˆ˜: ๋ชจํ˜ธํ•œ ๋ฃจ๋ธŒ๋ฆญ์œผ๋กœ LLM-as-judge ์‚ฌ์šฉ. ํ•ด๊ฒฐ์ฑ…: ํŒ์‚ฌ prompt๋Š” ๊ฐ ์ ์ˆ˜ ์ˆ˜์ค€์„ ๋ช…์‹œ์ ์œผ๋กœ ์ •์˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. "1-5๋กœ ํ’ˆ์งˆ ์ ์ˆ˜ํ™”" ๊ฐ™์€ ๋ชจํ˜ธํ•œ ๋ฃจ๋ธŒ๋ฆญ์€ ์ง„๋‹จ ๊ฐ€์น˜๊ฐ€ ์—†๋Š” ์ผ๊ด€์„ฑ ์—†๋Š” ์ ์ˆ˜๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค.
  • ์‹ค์ˆ˜: ์ฒซ ๋ฒˆ์งธ ๋ณ€๊ฒฝ ์ „ ๊ธฐ์ค€์„  ์—†์Œ. ํ•ด๊ฒฐ์ฑ…: ๋ณ€๊ฒฝ์„ ํ•˜๊ธฐ ์ „์— ์ง€ํ‘œ ๊ฐ’์„ ๊ธฐ๋กํ•˜์‹ญ์‹œ์˜ค. ๊ธฐ์ค€์„  ์—†์ด๋Š” ํšŒ๊ท€๋ฅผ ๊ฐ์ง€ํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.
  • ์‹ค์ˆ˜: ํ•˜๋‚˜์˜ ์ง€ํ‘œ๋งŒ ์ธก์ •. ํ•ด๊ฒฐ์ฑ…: ํ”„๋กœ๋•์…˜ prompt๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์–‘ํ•œ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ๋ณธ ์ง€ํ‘œ(pass rate ๋˜๋Š” ์ •ํ™•๋„)์™€ ๋ณด์กฐ ์ง€ํ‘œ(์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ ๋˜๋Š” LLM-as-judge) ๋ชจ๋‘๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๊ด€๋ จ ์ž๋ฃŒ

FAQ

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” prompt๊ฐ€ ์˜๋„ํ•œ ์ถœ๋ ฅ์„ ์•ˆ์ •์ ์œผ๋กœ ์ƒ์„ฑํ•˜๋Š”์ง€ ์ธก์ •ํ•˜๋Š” ์ •๋Ÿ‰์  ์‹ ํ˜ธ์ž…๋‹ˆ๋‹ค. ์ฃผ์š” ์ง€ํ‘œ์—๋Š” pass rate, BLEU ์ ์ˆ˜, ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ, LLM-as-judge๊ฐ€ ํฌํ•จ๋ฉ๋‹ˆ๋‹ค. ์ถœ๋ ฅ ์œ ํ˜•์— ์ž˜๋ชป๋œ ์ง€ํ‘œ๋ฅผ ์„ ํƒํ•˜๋ฉด ์˜คํ•ด์˜ ์†Œ์ง€๊ฐ€ ์žˆ๋Š” ์ ์ˆ˜๊ฐ€ ๋‚˜์˜ต๋‹ˆ๋‹ค.

Prompt ํ‰๊ฐ€์—์„œ pass rate๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

Pass rate๋Š” ์ถœ๋ ฅ์ด ์ •์˜๋œ ์„ฑ๊ณต ๊ธฐ์ค€์„ ์ถฉ์กฑํ•˜๋Š” ํ…Œ์ŠคํŠธ ์ž…๋ ฅ์˜ ๋น„์œจ์ž…๋‹ˆ๋‹ค. ํ”„๋กœ๋•์…˜ ์‹คํŒจ์œจ์— ์ง์ ‘ ๋งคํ•‘๋˜๋ฉฐ ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ prompt์— ๊ฐ€์žฅ ์‹คํ–‰ ๊ฐ€๋Šฅํ•œ ์ง€ํ‘œ์ž…๋‹ˆ๋‹ค.

Prompt์— BLEU ์ ์ˆ˜๋ฅผ ์–ธ์ œ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

BLEU๋Š” ์ถœ๋ ฅ์ด ์ฐธ์กฐ ํ…์ŠคํŠธ์™€ ๋ฐ€์ ‘ํ•˜๊ฒŒ ์ผ์น˜ํ•ด์•ผ ํ•˜๋Š” ๋ฒˆ์—ญ ๋ฐ ์š”์•ฝ ์ž‘์—…์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ํ˜•์‹ ์ค€์ˆ˜๋‚˜ ์˜๋ฏธ๋ก ์  ์ •ํ™•์„ฑ์ด ์•„๋‹Œ n-๊ทธ๋žจ ๋‹จ์–ด ๊ฒน์นจ์„ ์ธก์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— JSON ์ƒ์„ฑ, ์ง€์‹œ ๋”ฐ๋ฅด๊ธฐ, ์ฐฝ์˜์  ๊ธ€์“ฐ๊ธฐ์—๋Š” ์˜คํ•ด์˜ ์†Œ์ง€๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

LLM-as-judge ํ‰๊ฐ€๋ž€ ๋ฌด์—‡์ž…๋‹ˆ๊นŒ?

LLM-as-judge๋Š” GPT-5.5 ๋˜๋Š” Claude Opus 4.8์„ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ๋กœ ๋ฃจ๋ธŒ๋ฆญ์— ๋”ฐ๋ผ ์ถœ๋ ฅ์„ ์ ์ˆ˜ํ™”ํ•ฉ๋‹ˆ๋‹ค. ์ด์ง„ ์ง€ํ‘œ๊ฐ€ ๋†“์น˜๋Š” ๋ฏธ๋ฌ˜ํ•œ ํ’ˆ์งˆ ์ฐจ์›์„ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ์ฃผ์š” ์œ„ํ—˜์€ ์ž์ฒด ์ถœ๋ ฅ ์Šคํƒ€์ผ์— ๋Œ€ํ•œ ๋ชจ๋ธ ํŽธํ–ฅ์ž…๋‹ˆ๋‹ค.

Prompt ์ง€ํ‘œ ํšŒ๊ท€๋ฅผ ์–ด๋–ป๊ฒŒ ๊ฐ์ง€ํ•ฉ๋‹ˆ๊นŒ?

Prompt ๋ฒ„์ „๋ณ„ ๊ธฐ๋ณธ ์ง€ํ‘œ๋ฅผ ์ถ”์ ํ•˜๊ณ  ์„ค์ •๋œ ๊ธฐ์ค€์„ ์—์„œ 5ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝํ•  ๋•Œ ๊ฒฝ๋ณด๋ฅผ ์šธ๋ฆฌ์‹ญ์‹œ์˜ค. 5ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝ ์‹œ ๋ฐฐํฌ๋ฅผ ์ฐจ๋‹จํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. 10ํฌ์ธํŠธ ์ด์ƒ ํ•˜๋ฝ์€ ์ง„ํ–‰ ์ „ ์กฐ์‚ฌ๊ฐ€ ํ•„์š”ํ•œ ์‹ฌ๊ฐํ•œ ํšŒ๊ท€์ž…๋‹ˆ๋‹ค.

JSON ์ถœ๋ ฅ prompt์— ์–ด๋–ค ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•ฉ๋‹ˆ๊นŒ?

์ด์ง„ pass/fail์„ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค. ํ†ต๊ณผ๋ฅผ ์œ ํšจํ•œ JSON + ํ•„์ˆ˜ ํ•„๋“œ ์กด์žฌ + ํ—ˆ์šฉ ๋ฒ”์œ„ ๋‚ด์˜ ๊ฐ’์œผ๋กœ ์ •์˜ํ•˜์‹ญ์‹œ์˜ค. BLEU์™€ ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ์€ ๊ตฌ์กฐํ™”๋œ ์ถœ๋ ฅ์— ์˜๋ฏธ๊ฐ€ ์—†์Šต๋‹ˆ๋‹ค.

์—ฌ๋Ÿฌ prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋ฅผ ๊ฒฐํ•ฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๊นŒ?

๋„ค โ€” ํ”„๋กœ๋•์…˜ prompt๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋‹ค์–‘ํ•œ ์‹คํŒจ ๋ชจ๋“œ๋ฅผ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ๊ธฐ๋ณธ ์ง€ํ‘œ์™€ ๋ณด์กฐ ์ง€ํ‘œ๊ฐ€ ๋ชจ๋‘ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ๋‘ ์ง€ํ‘œ๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์ถ”์ ํ•˜๊ณ  ์ž„๊ณ„๊ฐ’ ์•„๋ž˜๋กœ ๋–จ์–ด์ง€๋ฉด ๊ฒฝ๋ณด๋ฅผ ์šธ๋ฆฌ์‹ญ์‹œ์˜ค.

์ฝ”๋“œ ์ƒ์„ฑ์„ ์œ„ํ•œ prompt ํ’ˆ์งˆ์„ ์–ด๋–ป๊ฒŒ ํ‰๊ฐ€ํ•ฉ๋‹ˆ๊นŒ?

ํ…Œ์ŠคํŠธ pass rate๋ฅผ ๊ธฐ๋ณธ ์ง€ํ‘œ๋กœ ์‚ฌ์šฉํ•˜์‹ญ์‹œ์˜ค โ€” ์ฝ”๋“œ๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ๋‹จ์œ„ ํ…Œ์ŠคํŠธ๋ฅผ ์‹คํ–‰ํ•˜๊ณ , ํ†ต๊ณผํ•œ ๋น„์œจ์„ ๊ณ„์‚ฐํ•˜์‹ญ์‹œ์˜ค. ๋” ์™„์ „ํ•œ ํ’ˆ์งˆ ๊ทธ๋ฆผ์„ ์œ„ํ•ด ์ •์  ๋ถ„์„ ์ ์ˆ˜๋กœ ๋ณด์™„ํ•˜์‹ญ์‹œ์˜ค.

์–ด๋–ค ์ง€์—ญ์  ์š”์†Œ๊ฐ€ Prompt ํ‰๊ฐ€ ์š”๊ตฌ์‚ฌํ•ญ์— ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๊นŒ?

๊ทœ์ œ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ๊ด€ํ• ๊ถŒ๊ณผ ์œ„ํ—˜ ๋ถ„๋ฅ˜์— ๋”ฐ๋ผ ํŠน์ • ์˜๋ฌด๋ฅผ ๊ฐ€์ง„ ๋ฌธ์„œํ™”๋œ AI ํ’ˆ์งˆ ์ง€ํ‘œ๋ฅผ ์ ์  ๋” ์š”๊ตฌํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • EU (AI Act 2025โ€“2026): ๊ณ ์œ„ํ—˜ AI ์‹œ์Šคํ…œ์€ ์ •๋Ÿ‰์  ํ’ˆ์งˆ ์ง€ํ‘œ๋ฅผ ์‚ฌ์šฉํ•œ ๋ฌธ์„œํ™”๋œ ํ…Œ์ŠคํŠธ๋ฅผ ์ฆ๋ช…ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. Prompt ํ‰๊ฐ€ ๊ธฐ๋ก โ€” ํ…Œ์ŠคํŠธ ์„ธํŠธ, pass rate, ํšŒ๊ท€ ๊ธฐ์ค€์„  โ€” ์€ AI Act ํˆฌ๋ช…์„ฑ ์š”๊ตฌ์‚ฌํ•ญ์„ ์œ„ํ•œ ๊ฐ์‚ฌ ์ค€๋น„ ์ฆ๊ฑฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๋ฏธ๊ตญ (SOC 2 / NIST AI RMF): SOC 2 Type II ๊ฐ์‚ฌ๋Š” AI ๊ธฐ๋ฐ˜ ํ”„๋กœ์„ธ์Šค์— ๋Œ€ํ•œ ๋ฌธ์„œํ™”๋œ ํ’ˆ์งˆ ๋ณด์ฆ์„ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค. ๋ฒ„์ „ ๊ธฐ๋ก์ด ์žˆ๋Š” Prompt ํ‰๊ฐ€ ์ง€ํ‘œ๋Š” ๋ณ€๊ฒฝ ๊ด€๋ฆฌ ๋ฐ ํ’ˆ์งˆ ๊ด€๋ฆฌ ๊ฐ์‚ฌ ์š”๊ตฌ์‚ฌํ•ญ์„ ์ถฉ์กฑํ•ฉ๋‹ˆ๋‹ค.
  • ๋‹ค๊ตญ์–ด ํ‰๊ฐ€: ์—ฌ๋Ÿฌ ์–ธ์–ด์— ๊ฑธ์ณ prompt๋ฅผ ๋ฐฐํฌํ•  ๋•Œ ๊ฐ ์–ธ์–ด ๋ณ€ํ˜•์„ ๋ณ„๋„๋กœ ํ‰๊ฐ€ํ•˜์‹ญ์‹œ์˜ค. BLEU ์ ์ˆ˜์™€ ์‹œ๋งจํ‹ฑ ์œ ์‚ฌ์„ฑ ์ž„๊ณ„๊ฐ’์€ ์–ธ์–ด ์Œ ๊ฐ„์— ํฌ๊ฒŒ ๋‹ค๋ฆ…๋‹ˆ๋‹ค. ํ•œ๊ตญ์–ด ํ‰๊ฐ€์—์„œ๋Š” ํ•œ๊ตญ์–ด ํŠนํ™” ์ž„๋ฒ ๋”ฉ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๊ณ  ํ•œ๊ตญ์–ด ์ปจํ…์ŠคํŠธ์— ๋งž๊ฒŒ ์ž„๊ณ„๊ฐ’์„ ์กฐ์ •ํ•˜์‹ญ์‹œ์˜ค.

์ถœ์ฒ˜

Apply these techniques with a local LLM or your own API keys โ€” PromptQuorum works with any backend.

Try PromptQuorum free โ†’

โ† Back to Prompt Engineering

Prompt ํ‰๊ฐ€ ์ง€ํ‘œ: Pass Rate, BLEU, LLM-as-Judge (2026)