Skip to main content
PromptQuorumPromptQuorum
Home/Prompt Engineering/μˆ˜λ™ vs μžλ™ ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™”: μ–Έμ œ λ°˜λ³΅ν•˜κ³  μ–Έμ œ μžλ™ν™”ν•  것인가
Tools & Platforms

μˆ˜λ™ vs μžλ™ ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™”: μ–Έμ œ λ°˜λ³΅ν•˜κ³  μ–Έμ œ μžλ™ν™”ν•  것인가

Β·9λΆ„ 읽기·By Hans Kuepper Β· Founder of PromptQuorum, multi-model AI dispatch tool Β· PromptQuorum

ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™”λŠ” μˆ˜λ™(직접 ν”„λ‘¬ν”„νŠΈλ₯Ό μž¬μž‘μ„±)μ΄λ‚˜ μžλ™(ν”„λ ˆμž„μ›Œν¬κ°€ μž¬μž‘μ„±)으둜 μˆ˜ν–‰ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μˆ˜λ™ μ΅œμ ν™”λŠ” μ™„μ „ν•œ μ œμ–΄κΆŒμ„ μ œκ³΅ν•˜μ§€λ§Œ ν”„λ‘œλ•μ…˜ ν”„λ‘¬ν”„νŠΈ ~50κ°œκΉŒμ§€λ§Œ ν™•μž₯λ©λ‹ˆλ‹€. μžλ™ μ΅œμ ν™”(DSPy, TextGrad, Promptfoo)λŠ” 100개 μ΄μƒμœΌλ‘œ ν™•μž₯λ˜μ§€λ§Œ λ ˆμ΄λΈ”μ΄ μ§€μ •λœ ν•™μŠ΅ 데이터와 λ©”νŠΈλ¦­ μ •μ˜κ°€ ν•„μš”ν•©λ‹ˆλ‹€. 이 κ°€μ΄λ“œλŠ” 각 방법을 μ–Έμ œ μ‚¬μš©ν• μ§€, 그리고 μ–΄λ–»κ²Œ ν•¨κ»˜ ν™œμš©ν• μ§€ μ„€λͺ…ν•©λ‹ˆλ‹€.

μˆ˜λ™ vs μžλ™ ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™”λŠ” 규λͺ¨μ— λ”°λ₯Έ κ²°μ •μž…λ‹ˆλ‹€. μˆ˜λ™: 단일 νƒœμŠ€ν¬μ—μ„œ κ°€μž₯ λΉ λ₯΄κ³ , μ™„μ „ν•œ μ œμ–΄ κ°€λŠ₯ν•˜μ§€λ§Œ 50개 μ΄μƒμ˜ ν”„λ‘¬ν”„νŠΈμ—λŠ” ν™•μž₯λ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. μžλ™: 섀정이 느리고 평가 λ©”νŠΈλ¦­μ΄ ν•„μš”ν•˜μ§€λ§Œ 100개 μ΄μƒμ˜ ν”„λ‘¬ν”„νŠΈλ‘œ ν™•μž₯λ©λ‹ˆλ‹€. 선택 κΈ°μ€€: (1) ν˜„μž¬ ν”„λ‘¬ν”„νŠΈ μˆ˜λŠ”? (2) λ ˆμ΄λΈ”μ΄ μ§€μ •λœ μ˜ˆμ‹œκ°€ μžˆμŠ΅λ‹ˆκΉŒ? (3) μ΅œμ ν™”κ°€ μΌνšŒμ„±μž…λ‹ˆκΉŒ, μ•„λ‹ˆλ©΄ μ§€μ†μ μž…λ‹ˆκΉŒ?

Key Takeaways

  • μˆ˜λ™ μ΅œμ ν™” = 직접 ν”„λ‘¬ν”„νŠΈλ₯Ό μž¬μž‘μ„±ν•©λ‹ˆλ‹€. 50개 미만 및 μ™„μ „ν•œ μ œμ–΄κ°€ ν•„μš”ν•œ κ²½μš°μ— μ ν•©ν•˜λ©°, ν™•μž₯λ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.
  • μžλ™ μ΅œμ ν™” = ν”„λ ˆμž„μ›Œν¬κ°€ ν”„λ‘¬ν”„νŠΈλ₯Ό μž¬μž‘μ„±ν•©λ‹ˆλ‹€. 100개 이상에 μ ν•©ν•˜λ©°, λ ˆμ΄λΈ” 데이터와 λ©”νŠΈλ¦­μ΄ ν•„μš”ν•©λ‹ˆλ‹€.
  • ν•˜μ΄λΈŒλ¦¬λ“œ = μˆ˜λ™μœΌλ‘œ μ‹œμž‘ν•˜μ—¬ 평가 데이터와 20개 μ΄μƒμ˜ ν”„λ‘¬ν”„νŠΈκ°€ ν™•λ³΄λ˜λ©΄ μžλ™ν™”λ‘œ μ „ν™˜ν•©λ‹ˆλ‹€.
  • 도ꡬ: DSPy(연ꡬ 및 ν™•μž₯에 졜적), TextGrad(κ³ κΈ‰/연ꡬ), Promptfoo(ν…ŒμŠ€νŠΈ + μˆ˜λ™, μ™„μ „ μžλ™ν™” μ•„λ‹˜).
  • λΉ„μš© 뢄기점: ~50개 ν”„λ‘¬ν”„νŠΈ. 미만이면 μˆ˜λ™μ΄ λΉ λ¦…λ‹ˆλ‹€. μ΄ˆκ³Όν•˜λ©΄ μžλ™ν™”κ°€ μ—”μ§€λ‹ˆμ–΄ μ‹œκ°„μ„ μ ˆμ•½ν•©λ‹ˆλ‹€.
  • 항상 단일 νƒœμŠ€ν¬μ—μ„œ μˆ˜λ™μœΌλ‘œ μ‹œμž‘ν•˜κ³ , 평가 데이터λ₯Ό μƒμ„±ν•œ ν›„ λ³€ν˜• 및 ν™•μž₯을 μœ„ν•΄ μžλ™ν™”λ‘œ μ΄μ „ν•˜μ‹­μ‹œμ˜€.

⚑ Quick Facts

  • Β·μˆ˜λ™ μ΅œμ ν™”: ν”„λ‘¬ν”„νŠΈλ‹Ή 2–4회 반볡, μ™„μ „ν•œ μ œμ–΄, ν•™μŠ΅ 데이터 λΆˆν•„μš”, ν”„λ‘œλ•μ…˜ ν”„λ‘¬ν”„νŠΈ 50개 λ―Έλ§Œμ— 적합
  • Β·μžλ™ μ΅œμ ν™”: 1–2회 ν•™μŠ΅ 사이클, λ ˆμ΄λΈ” μ˜ˆμ‹œ + λ©”νŠΈλ¦­ ν•„μš”, 100개 μ΄μƒμ˜ ν”„λ‘¬ν”„νŠΈλ‘œ ν™•μž₯, 수일 λ‚΄ μ„€μ • μ™„λ£Œ
  • Β·ν•˜μ΄λΈŒλ¦¬λ“œ 방식: μˆ˜λ™μœΌλ‘œ μ‹œμž‘ν•˜μ—¬ 20개 μ΄μƒμ˜ ν”„λ‘¬ν”„νŠΈμ™€ 평가 데이터가 ν™•λ³΄λ˜λ©΄ μžλ™ν™”λ‘œ μ „ν™˜
  • Β·DSPyλŠ” λͺ¨λΈμ΄ 슀슀둜 μ΅œμ ν™”ν•˜λ„λ‘ κ°€λ₯΄μΉ©λ‹ˆλ‹€ β€” 각 μ΅œμ ν™” μ‹€ν–‰μ—μ„œ μˆ˜λ™ μž¬μž‘μ„± 없이 더 λ‚˜μ€ 후보λ₯Ό μƒμ„±ν•©λ‹ˆλ‹€
  • Β·μ˜μ‚¬κ²°μ • κΈ°μ€€: 50개 미만 = μˆ˜λ™. 50–100개 = ν•˜μ΄λΈŒλ¦¬λ“œ. 100개 이상 = μžλ™ν™”.
  • Β·λΉ„μš© 차이: μˆ˜λ™(μ—”μ§€λ‹ˆμ–΄λ§ μ‹œκ°„) vs μžλ™ν™”(μ»΄ν“¨νŒ… + 데이터 λ ˆμ΄λΈ”λ§). 20개 μ΄μƒμ˜ ν”„λ‘¬ν”„νŠΈ λ³€ν˜•μ„ μΆœμ‹œν•˜λŠ” νŒ€μ—λŠ” μžλ™ν™”κ°€ μœ λ¦¬ν•©λ‹ˆλ‹€

μˆ˜λ™ vs μžλ™: λΉ λ₯Έ 비ꡐ

μ„Έ κ°€μ§€ μš”μ†Œλ₯Ό κΈ°μ€€μœΌλ‘œ μ„ νƒν•˜μ‹­μ‹œμ˜€: ν”„λ‘¬ν”„νŠΈ 수, 평가 데이터, ν™•μž₯ ν•„μš”μ„±. μˆ˜λ™ μ΅œμ ν™”λŠ” ν…ŒμŠ€νŠΈ μ‹€νŒ¨λ₯Ό 기반으둜 ν”„λ‘¬ν”„νŠΈλ₯Ό μž¬μž‘μ„±ν•˜λŠ” κ²ƒμœΌλ‘œ, 직접 μ œμ–΄ν•  수 μžˆμ§€λ§Œ ν”„λ‘œλ•μ…˜ ν”„λ‘¬ν”„νŠΈ ~50개 μ΄μƒμœΌλ‘œλŠ” ν™•μž₯λ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. μžλ™ μ΅œμ ν™”λŠ” ν”„λ ˆμž„μ›Œν¬(DSPy, TextGrad)λ₯Ό μ‚¬μš©ν•˜μ—¬ μ•Œκ³ λ¦¬μ¦˜μœΌλ‘œ ν”„λ‘¬ν”„νŠΈλ₯Ό μž¬μž‘μ„±ν•˜λ©°, 100개 μ΄μƒμœΌλ‘œ ν™•μž₯λ˜μ§€λ§Œ λ ˆμ΄λΈ” 데이터와 λ©”νŠΈλ¦­μ΄ ν•„μš”ν•©λ‹ˆλ‹€. μ„Έ 번째 검증 λ‹¨κ³„β€”ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™” ν”Œλž«νΌμ„ μ΄μš©ν•΄ λ™μΌν•œ ν”„λ‘¬ν”„νŠΈλ₯Ό μ—¬λŸ¬ λͺ¨λΈμ—μ„œ 싀행—은 ν”„λ‘œλ•μ…˜μœΌλ‘œ ν™•μ •ν•˜κΈ° 전에 μ–΄λŠ 버전이 κ°€μž₯ 잘 μΌλ°˜ν™”λ˜λŠ”μ§€ ν™•μΈν•©λ‹ˆλ‹€.

μš”μΈμˆ˜λ™ μ΅œμ ν™”μžλ™ μ΅œμ ν™”
졜적 ν”„λ‘¬ν”„νŠΈ 수50개 미만 (μ œμ–΄ 쀑심)100개 이상 (ν™•μž₯ 쀑심)
ν•™μŠ΅ 데이터 ν•„μš” μ—¬λΆ€λΆˆν•„μš”ν•„μš” (50–500개 μ˜ˆμ‹œ)
μ„€μ • μ‹œκ°„ν”„λ‘¬ν”„νŠΈλ‹Ή 1–2μ‹œκ°„μΌνšŒμ„± 2–5일
ν”„λ‘¬ν”„νŠΈλ‹Ή λΉ„μš©$1,000–5,000 (인건비)$100–500 (μ»΄ν“¨νŒ… + λ ˆμ΄λΈ”)

μˆ˜λ™ μ΅œμ ν™”κ°€ μœ λ¦¬ν•œ 경우

  • ν”„λ‘œλ•μ…˜ ν”„λ‘¬ν”„νŠΈκ°€ 50개 미만인 경우 β€” 데이터 및 λ©”νŠΈλ¦­ μ„€μ •μ˜ μ˜€λ²„ν—€λ“œκ°€ κ°€μΉ˜κ°€ μ—†μŠ΅λ‹ˆλ‹€
  • μƒˆλ‘­κ±°λ‚˜ μΌνšŒμ„± νƒœμŠ€ν¬ β€” μ΅œμ ν™” λ°©ν–₯이 아직 λͺ…ν™•ν•˜μ§€ μ•ŠμœΌλ―€λ‘œ μΈκ°„μ˜ 톡찰λ ₯이 더 λΉ λ¦…λ‹ˆλ‹€
  • 높은 μ œμ–΄ μš”κ±΄ β€” μ»΄ν”ŒλΌμ΄μ–ΈμŠ€, λΈŒλžœλ“œ 보이슀, μ°½μž‘ κΈ€μ“°κΈ° β€” λͺ¨λ“  변경을 직접 μŠΉμΈν•΄μ•Ό ν•˜λŠ” 경우
  • μ†Œκ·œλͺ¨ νŒ€ (5λͺ… 미만) β€” μˆ˜λ™ 반볡이 λΉ λ₯΄λ©° νŒ€μ›λ“€μ΄ λ³€κ²½ 이유λ₯Ό μ΄ν•΄ν•©λ‹ˆλ‹€
  • 평가 데이터 λΆ€μ‘± β€” λ ˆμ΄λΈ” μ˜ˆμ‹œκ°€ 50개 λ―Έλ§Œμ΄λ―€λ‘œ μžλ™ ν•™μŠ΅ μ‹œ 과적합이 λ°œμƒν•©λ‹ˆλ‹€

μžλ™ μ΅œμ ν™”κ°€ μœ λ¦¬ν•œ 경우

  • ν”„λ‘œλ•μ…˜ ν”„λ‘¬ν”„νŠΈκ°€ 100개 이상인 경우 β€” μˆ˜λ™ 반볡의 μ—”μ§€λ‹ˆμ–΄λ§ λΉ„μš©μ΄ κ³Όλ„ν•΄μ§‘λ‹ˆλ‹€
  • 규λͺ¨μ—μ„œμ˜ λ³€ν˜• ν…ŒμŠ€νŠΈ β€” A/B ν…ŒμŠ€νŠΈλ₯Ό μœ„ν•΄ 10개 μ΄μƒμ˜ ν”„λ‘¬ν”„νŠΈ 버전이 ν•„μš”ν•˜λ©°, μžλ™ν™”κ°€ 더 λΉ λ₯΄κ²Œ μƒμ„±ν•©λ‹ˆλ‹€
  • 지속적인 μ΅œμ ν™” β€” μ‚¬μš©μž μž…λ ₯이 변화함에 따라 ν”„λ‘¬ν”„νŠΈκ°€ μ €ν•˜λ©λ‹ˆλ‹€; μžλ™ν™” μ‹œμŠ€ν…œμ€ λ§€μ›” μž¬ν•™μŠ΅ν•  수 μžˆμŠ΅λ‹ˆλ‹€
  • λ©”νŠΈλ¦­ 기반 μ›Œν¬ν”Œλ‘œμš° β€” νƒœμŠ€ν¬μ— λͺ…ν™•ν•œ 성곡 λ©”νŠΈλ¦­(정확도, BLEU, LLM νŒμ • 점수)이 있으며 주관적 ν’ˆμ§ˆμ΄ μ•„λ‹Œ 경우
  • λŒ€κ·œλͺ¨ νŒ€ (10λͺ… 이상) β€” μˆ˜λ™ λ³€κ²½μ˜ 쑰율 μ˜€λ²„ν—€λ“œκ°€ λ†’μ•„μ§‘λ‹ˆλ‹€; μžλ™ν™”λŠ” μ΅œμ ν™”λ₯Ό μž¬ν˜„ κ°€λŠ₯ν•˜κ²Œ λ§Œλ“­λ‹ˆλ‹€

도ꡬ 비ꡐ: DSPy, TextGrad, Promptfoo

μžλ™ λ˜λŠ” λ°˜μžλ™ μ΅œμ ν™”λ₯Ό μ§€μ›ν•˜λŠ” μ„Έ κ°€μ§€ μ£Όμš” 도ꡬ:

λ„κ΅¬λ°©μ‹μ„±μˆ™λ„κ·œλͺ¨μ΅œμ  μš©λ„
DSPy (Stanford)ν•™μŠ΅μ„ ν†΅ν•œ ν”„λ‘¬ν”„νŠΈ μ΅œμ ν™”ν”„λ‘œλ•μ…˜ 지원 (μ˜€ν”ˆμ†ŒμŠ€)50–500개 ν”„λ‘¬ν”„νŠΈν”„λ‘¬ν”„νŠΈ λ³€ν˜•μ„ ν™•μž₯ν•˜λŠ” νŒ€
TextGradκ·Έλž˜λ””μ–ΈνŠΈ 기반 ν”„λ‘¬ν”„νŠΈ μž¬μž‘μ„±μ—°κ΅¬ 단계 (μ‹ κ·œ, 아직 ν”„λ‘œλ•μ…˜ 미지원)10–100개 ν”„λ‘¬ν”„νŠΈμ—°κ΅¬, μ΅œμ²¨λ‹¨ μ΅œμ ν™”
Promptfooν…ŒμŠ€νŠΈ + νšŒκ·€ 탐지 (μˆ˜λ™ 보쑰)ν”„λ‘œλ•μ…˜ 지원 (μ˜€ν”ˆμ†ŒμŠ€)μ–΄λ–€ 규λͺ¨μ—λ„ 적합CI/CD ν…ŒμŠ€νŠΈ, μ™„μ „ μžλ™ν™” μ•„λ‹˜

ν•˜μ΄λΈŒλ¦¬λ“œ μ›Œν¬ν”Œλ‘œμš°: μˆ˜λ™ + μžλ™ λ³‘μš©

μ‹€μ œ ν™˜κ²½μ€ ν•˜μ΄λΈŒλ¦¬λ“œμž…λ‹ˆλ‹€. 직관과 평가 데이터λ₯Ό κ΅¬μΆ•ν•˜κΈ° μœ„ν•΄ μˆ˜λ™ μ΅œμ ν™”λ‘œ μ‹œμž‘ν•˜μ‹­μ‹œμ˜€. 규λͺ¨κ°€ ν™•λ³΄λ˜λ©΄ μžλ™ν™”λ‘œ μ „ν™˜ν•˜μ‹­μ‹œμ˜€.

  1. 1
    1–4μ£Όμ°¨: 1–3개의 핡심 ν”„λ‘¬ν”„νŠΈλ₯Ό μˆ˜λ™μœΌλ‘œ μ΅œμ ν™”ν•©λ‹ˆλ‹€. ν”„λ‘¬ν”„νŠΈλ‹Ή 50개 μ΄μƒμ˜ λ ˆμ΄λΈ” μ˜ˆμ‹œλ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.
  2. 2
    4–8μ£Όμ°¨: 평가 λ©”νŠΈλ¦­μ„ κ΅¬μΆ•ν•©λ‹ˆλ‹€(정확도, BLEU, λ˜λŠ” LLM νŒμ •). Promptfoo A/B ν…ŒμŠ€νŠΈλ₯Ό μ‹€ν–‰ν•˜μ—¬ μˆ˜λ™ μž‘μ—…μ„ κ²€μ¦ν•©λ‹ˆλ‹€.
  3. 3
    8μ£Όμ°¨ 이후: DSPyλ₯Ό μ„€μ •ν•©λ‹ˆλ‹€. μ¦κ°€ν•˜λŠ” 평가 λ°μ΄ν„°μ…‹μœΌλ‘œ μž¬ν•™μŠ΅ν•©λ‹ˆλ‹€. μžλ™ν™”λ₯Ό 톡해 μƒˆλ‘œμš΄ ν”„λ‘¬ν”„νŠΈ λ³€ν˜•μ„ μΆ”κ°€ν•©λ‹ˆλ‹€.
  4. 4
    ν”„λ‘œλ•μ…˜: DSPy μ΅œμ ν™” λ³€ν˜•μ„ λ°°ν¬ν•©λ‹ˆλ‹€. λ§€ 컀밋 μ‹œ Promptfoo둜 νšŒκ·€ ν…ŒμŠ€νŠΈλ₯Ό μˆ˜ν–‰ν•©λ‹ˆλ‹€.

λΉ„μš© 뢄석: μˆ˜λ™ vs μžλ™

λͺ‡ 개의 ν”„λ‘¬ν”„νŠΈμ—μ„œ μžλ™ν™”κ°€ μˆ˜λ™λ³΄λ‹€ μ €λ ΄ν•΄μ§‘λ‹ˆκΉŒ? 손읡뢄기점은 μ•½ 50–80개 ν”„λ‘¬ν”„νŠΈμž…λ‹ˆλ‹€.

  • μˆ˜λ™ λΉ„μš©/ν”„λ‘¬ν”„νŠΈ: 4–8μ‹œκ°„ μ—”μ§€λ‹ˆμ–΄λ§ μ‹œκ°„ Γ— $150/μ‹œκ°„ = $600–1,200 직접 인건비. λ¦¬μ„œμΉ˜, ν…ŒμŠ€νŠΈ, λ¬Έμ„œν™” μΆ”κ°€ = ν”„λ‘¬ν”„νŠΈλ‹Ή $1,500–5,000 합계.
  • μžλ™ν™” μΌνšŒμ„± λΉ„μš©: DSPy μ„€μ • = $2,000–5,000 (2–5일 μ—”μ§€λ‹ˆμ–΄ + μ»΄ν“¨νŒ…). 이후 ν”„λ‘¬ν”„νŠΈλ‹Ή λΉ„μš© = $100–300 (μ»΄ν“¨νŒ… + λ ˆμ΄λΈ”λ§).
  • 손읡뢄기점: ~60개 ν”„λ‘¬ν”„νŠΈμ—μ„œ μžλ™ν™” μ΄λΉ„μš© = $2,000 + (60 Γ— $200) = $14,000. μˆ˜λ™ μ΄λΉ„μš© = 60 Γ— $3,000 = $180,000. μžλ™ν™”κ°€ 13λ°° μœ λ¦¬ν•©λ‹ˆλ‹€.
  • 30개 미만 ν”„λ‘¬ν”„νŠΈ: μˆ˜λ™μ΄ 더 λΉ λ₯΄κ³  μ €λ ΄ν•©λ‹ˆλ‹€. μžλ™ν™” μ„€μ •μ˜ μ˜€λ²„ν—€λ“œκ°€ μ •λ‹Ήν™”λ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.
  • 100개 이상 ν”„λ‘¬ν”„νŠΈ: μžλ™ν™”κ°€ μˆ˜λ™λ³΄λ‹€ 5–10λ°° μ €λ ΄ν•©λ‹ˆλ‹€.

ν”ν•œ μ‹€μˆ˜

  • λ ˆμ΄λΈ” 데이터 없이 DSPy μ‹€ν–‰ β€” DSPyλŠ” μ˜ˆμ‹œμ—μ„œ ν•™μŠ΅ν•©λ‹ˆλ‹€. 50개 μ΄μƒμ˜ λ ˆμ΄λΈ” (μž…λ ₯, 좜λ ₯) 쌍 μ—†μ΄λŠ” λ…Έμ΄μ¦ˆλ‘œ ν•™μŠ΅ν•©λ‹ˆλ‹€. μˆ˜λ™ λ°˜λ³΅μ„ λ¨Όμ € μˆ˜ν–‰ν•˜κ³ , μŒμ„ λ¬Έμ„œν™”ν•œ ν›„ 이λ₯Ό ν•™μŠ΅ λ°μ΄ν„°λ‘œ μ‚¬μš©ν•˜μ‹­μ‹œμ˜€.
  • λͺ¨ν˜Έν•œ λ©”νŠΈλ¦­ 선택 β€” DSPy와 TextGradλŠ” μ •λŸ‰ν™”λœ λ©”νŠΈλ¦­(정확도, F1, BLEU)이 ν•„μš”ν•©λ‹ˆλ‹€. "ν’ˆμ§ˆ"κ³Ό 같이 λͺ¨ν˜Έν•œ λ©”νŠΈλ¦­μ€ μ΅œμ ν™”λ₯Ό μ•ˆλ‚΄ν•  수 μ—†μŠ΅λ‹ˆλ‹€. 성곡을 μ •μ˜ν•˜μ‹­μ‹œμ˜€: ν…ŒμŠ€νŠΈ μ„ΈνŠΈ 정확도, λΆ€λΆ„ λ¬Έμžμ—΄ 일치, λ˜λŠ” LLM νŒμ • 8/10 이상.
  • μžλ™ν™”κ°€ μƒˆλ‘œμš΄ 기법을 λ°œκ²¬ν•  κ²ƒμ΄λΌλŠ” κΈ°λŒ€ β€” DSPyλŠ” μ•Œλ €μ§„ ꡬ쑰 λ‚΄μ—μ„œ ν…μŠ€νŠΈλ₯Ό μ΅œμ ν™”ν•˜μ§€λ§Œ chain-of-thoughtλ‚˜ few-shot μ˜ˆμ‹œλ₯Ό 슀슀둜 λ°œκ²¬ν•˜μ§€λŠ” μ•ŠμŠ΅λ‹ˆλ‹€. λ¨Όμ € ꡬ쑰(νƒœμŠ€ν¬ μ„œλͺ…)λ₯Ό μ •μ˜ν•΄μ•Ό ν•©λ‹ˆλ‹€.
  • 30개 미만의 ν”„λ‘¬ν”„νŠΈμ—μ„œ μžλ™ν™” μ„€μ • β€” μžλ™ν™” μ˜€λ²„ν—€λ“œ(μ„€μ •, λ ˆμ΄λΈ”λ§, λ©”νŠΈλ¦­)λŠ” 2–5μ£Όμž…λ‹ˆλ‹€. 30개 미만의 ν”„λ‘¬ν”„νŠΈμ—μ„œλŠ” μˆ˜λ™ 반볡이 2–4λ°° λΉ λ¦…λ‹ˆλ‹€. 50개 μ΄μƒμ—μ„œ μžλ™ν™”λ‘œ μ „ν™˜ν•˜μ‹­μ‹œμ˜€.
  • 지속적인 λͺ¨λ‹ˆν„°λ§ 없이 μžλ™ν™” β€” μ‚¬μš©μž μž…λ ₯이 변화함에 따라 ν”„λ‘¬ν”„νŠΈκ°€ μ €ν•˜λ©λ‹ˆλ‹€. λ§€μ›” μž¬ν•™μŠ΅ν•˜μ‹­μ‹œμ˜€: μƒˆ μž…λ ₯ β†’ μ—…λ°μ΄νŠΈλœ 평가 μ„ΈνŠΈ β†’ DSPy μž¬μ‹€ν–‰ β†’ ν…ŒμŠ€νŠΈ β†’ 배포. μ΅œμ ν™”λ₯Ό μΌνšŒμ„±μ΄ μ•„λ‹Œ 지속적인 κ³Όμ •μœΌλ‘œ μ·¨κΈ‰ν•˜μ‹­μ‹œμ˜€.

자주 λ¬»λŠ” 질문

μˆ˜λ™ μ΅œμ ν™”μ™€ μžλ™ μ΅œμ ν™”λ₯Ό ν˜Όν•©ν•  수 μžˆμŠ΅λ‹ˆκΉŒ?

예, 이것이 λͺ¨λ²” μ‚¬λ‘€μž…λ‹ˆλ‹€. 핡심 νƒœμŠ€ν¬(1–3개 ν”„λ‘¬ν”„νŠΈ)λŠ” μˆ˜λ™μœΌλ‘œ, λ³€ν˜• 및 ν™•μž₯은 μžλ™ν™”λ‘œ μˆ˜ν–‰ν•˜μ‹­μ‹œμ˜€. λͺ¨λ“  λ³€ν˜•μ„ ν…ŒμŠ€νŠΈν•˜λ €λ©΄ Promptfooλ₯Ό μ‚¬μš©ν•˜κ³ , μƒˆ λ³€ν˜•μ„ μƒμ„±ν•˜λ €λ©΄ DSPyλ₯Ό μ‚¬μš©ν•˜μ‹­μ‹œμ˜€.

DSPyλŠ” λͺ¨λ“  λͺ¨λΈμ—μ„œ μž‘λ™ν•©λ‹ˆκΉŒ?

DSPyλŠ” APIλ₯Ό 톡해 μ ‘κ·Ό κ°€λŠ₯ν•œ λͺ¨λ“  λͺ¨λΈμ—μ„œ μž‘λ™ν•©λ‹ˆλ‹€: GPT-5.5, Claude, Gemini, Cohere, Ollama. λΉ„μ „ λͺ¨λΈμ€ 아직 μ§€μ›λ˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. 둜컬 λͺ¨λΈμ€ μ§€μ›λ˜μ§€λ§Œ 속도가 λŠλ¦½λ‹ˆλ‹€.

DSPy에 λ ˆμ΄λΈ” μ˜ˆμ‹œκ°€ λͺ‡ 개 ν•„μš”ν•©λ‹ˆκΉŒ?

κ°„λ‹¨ν•œ νƒœμŠ€ν¬(λΆ„λ₯˜, μΆ”μΆœ)μ—λŠ” μ΅œμ†Œ 30–50κ°œκ°€ ν•„μš”ν•©λ‹ˆλ‹€. λ³΅μž‘ν•œ νƒœμŠ€ν¬(μš”μ•½, μΆ”λ‘ )μ—λŠ” 100–500κ°œκ°€ μœ λ¦¬ν•©λ‹ˆλ‹€. μ˜ˆμ‹œκ°€ λ§Žμ„μˆ˜λ‘ μ΅œμ ν™”κ°€ 더 κ²¬κ³ ν•΄μ§‘λ‹ˆλ‹€.

DSPy μ‹€ν–‰μ˜ μ»΄ν“¨νŒ… λΉ„μš©μ€ μ–Όλ§ˆμž…λ‹ˆκΉŒ?

100개 μ˜ˆμ‹œμ— λŒ€ν•œ DSPy μ΅œμ ν™” μ‹€ν–‰ 1νšŒμ— ~$5–20κ°€ μ†Œμš”λ©λ‹ˆλ‹€(API 호좜). 후보 ν”„λ‘¬ν”„νŠΈ 10개 Γ— μ˜ˆμ‹œ 100개 = 호좜 1,000건 = μ΅œμ ν™” 사이클당 $50–200. 월별 μž¬ν•™μŠ΅ = $50–200/μ›”.

DSPy둜 μ΅œμ ν™”λœ ν”„λ‘¬ν”„νŠΈλ₯Ό ν”„λ‘œλ•μ…˜μ— 배포할 수 μžˆμŠ΅λ‹ˆκΉŒ?

예. DSPyλŠ” 일반 ν…μŠ€νŠΈ ν”„λ‘¬ν”„νŠΈλ₯Ό 좜λ ₯ν•©λ‹ˆλ‹€. 이λ₯Ό ν”„λ‘œλ•μ…˜ μ‹œμŠ€ν…œ(PromptQuorum, LangChain, Vellum λ“±)에 λ³΅μ‚¬ν•˜μ—¬ μ •μƒμ μœΌλ‘œ μ œκ³΅ν•˜μ‹­μ‹œμ˜€. ν”„λ‘œλ•μ…˜μ—μ„œλŠ” λ³„λ„μ˜ DSPy λŸ°νƒ€μž„μ΄ ν•„μš”ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

μžλ™ μ΅œμ ν™”κ°€ 더 λ‚˜μ€ ν”„λ‘¬ν”„νŠΈλ₯Ό 보μž₯ν•©λ‹ˆκΉŒ?

μ•„λ‹ˆμš”. λ©”νŠΈλ¦­μ΄ 잘λͺ»λœ 경우, DSPyλŠ” 잘λͺ»λœ 것을 μ΅œμ ν™”ν•©λ‹ˆλ‹€. 평가 데이터에 편ν–₯이 μžˆλ‹€λ©΄, DSPyλŠ” 편ν–₯을 ν•™μŠ΅ν•©λ‹ˆλ‹€. μ“°λ ˆκΈ°κ°€ λ“€μ–΄κ°€λ©΄ μ“°λ ˆκΈ°κ°€ λ‚˜μ˜΅λ‹ˆλ‹€.

μ°½μž‘ νƒœμŠ€ν¬μ— μžλ™ μ΅œμ ν™”λ₯Ό μ‚¬μš©ν•΄μ•Ό ν•©λ‹ˆκΉŒ?

아직은 κ·Έλ ‡μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. μžλ™ν™”λŠ” λ©”νŠΈλ¦­ 기반 νƒœμŠ€ν¬(λΆ„λ₯˜, μΆ”μΆœ, μš”μ•½)에 κ°€μž₯ 잘 μž‘λ™ν•©λ‹ˆλ‹€. μ°½μž‘ νƒœμŠ€ν¬(μΉ΄ν”ΌλΌμ΄νŒ…, μŠ€ν† λ¦¬ν…”λ§)λŠ” λͺ…ν™•ν•œ λ©”νŠΈλ¦­μ΄ μ—†μœΌλ―€λ‘œ μˆ˜λ™ μ œμ–΄κ°€ 더 μ ν•©ν•©λ‹ˆλ‹€.

DSPyλŠ” μ—¬λŸ¬ λͺ¨λΈμ„ λ™μ‹œμ— μ΅œμ ν™”ν•  수 μžˆμŠ΅λ‹ˆκΉŒ?

DSPyλŠ” ν•œ λ²ˆμ— ν•˜λ‚˜μ˜ λͺ¨λΈμ— λŒ€ν•΄ μ΅œμ ν™”ν•©λ‹ˆλ‹€. GPT-5.5와 Claude λͺ¨λ‘μ— μ΅œμ ν™”ν•˜λ €λ©΄ DSPyλ₯Ό 두 번 μ‹€ν–‰(λͺ¨λΈλ‹Ή ν•œ 번)ν•˜κ³  κ²°κ³Όλ₯Ό λΉ„κ΅ν•˜μ‹­μ‹œμ˜€. ν•˜μ΄λΈŒλ¦¬λ“œ 방식: μ„ ν˜Έ λͺ¨λΈλ‘œ μ΅œμ ν™”ν•œ ν›„ λ‹€λ₯Έ λͺ¨λΈμ—μ„œ μˆ˜λ™μœΌλ‘œ ν…ŒμŠ€νŠΈν•˜μ‹­μ‹œμ˜€.

좜처

  • Khattab, O., Potts, C., & Zaharia, M. (2024). "DSPy: Compiling Declarative Language Model Calls into State-of-the-art Retrieval-Augmented Systems." arXiv:2310.03714
  • Valmeekam, K., et al. (2024). "TextGrad: Automatic Differentiation via Text." arXiv:2406.07496
  • Promptfoo GitHub: https://github.com/promptfoo/promptfoo
  • Schulhoff, S., et al. (2024). "The Prompt Report: A Systematic Survey of Prompting Techniques." arXiv:2406.06608

Apply these techniques with a local LLM or your own API keys β€” PromptQuorum works with any backend.

Try PromptQuorum free β†’

← Back to Prompt Engineering

μˆ˜λ™ vs μžλ™ μ΅œμ ν™”: μ ‘κ·Ό 방식 선택 κ°€μ΄λ“œ | PromptQuorum