์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ด๋ ๋ฌด์์ธ๊ฐ
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ๋์ผํ ํ๋กฌํํธ์ ๋ํด ์ฌ๋ฌ ๋ ๋ฆฝ์ ์ธ ๋ต๋ณ์ ์ํ๋งํ๊ณ ๊ฐ์ฅ ์ผ๊ด๋ ๊ฒฐ๋ก ์ ์ ํํ๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ํ๋์ chain-of-thought ๋์ ์ ์ฌ์ ์ผ๋ก ๋ค๋ฅธ ์ฌ๋ฌ chain์ ์ป์ต๋๋ค.
์์ด๋์ด๋ ๊ฐ๋จํฉ๋๋ค: ๋ชจ๋ธ์ด ์ฌ๋ฌ ๋ค๋ฅธ ๋ฐฉ์์ผ๋ก ์ถ๋ก ํ๊ณ ๋๋ถ๋ถ์ ๊ฒฝ๋ก๊ฐ ๋์ผํ ๋ต์ผ๋ก ์๋ ดํ๋ค๋ฉด, ๊ทธ ๋ต์ ๋จ์ผ ์คํ๋ณด๋ค ๋ ์ ๋ขฐํ ์ ์์ต๋๋ค. ๊ฒฝ๋ก๋ค์ด ์ผ์นํ์ง ์์ผ๋ฉด, ๋ฌธ์ ๊ฐ ๋ชจํธํ๊ฑฐ๋ ์ด๋ ค์ ๋ ๋ฉด๋ฐํ ๊ฒํ ๊ฐ ํ์ํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ์ Wang et al.์ด 2023๋ ICLR์์ ๋์ ํ์์ผ๋ฉฐ ์ํ, ๋ ผ๋ฆฌ, ์ถ๋ก ๊ณผ์ ์์ ๊ทน์ ์ธ ์ ํ๋ ํฅ์์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. ์ด ๊ธฐ๋ฒ์ ํต๊ณํ์ ๊ทผ๋ณธ ์๋ฆฌ๋ฅผ ํ์ฉํฉ๋๋ค: ๋ง์ ๋ ๋ฆฝ์ ์ถ์ ์ ํฉ์๋ ๋จ์ผ ์ถ์ ๋ณด๋ค ๋ ์ ๋ขฐํ ์ ์์ต๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ด ์ค์ํ ์ด์
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ด ์ค์ํ ์ด์ ๋ ์ธ์ด ๋ชจ๋ธ์ด ์ด๋ ค์ด ์ถ๋ก ๊ณผ์ ์์ ๋ถ์์ ํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋คโ์ํ๋ง์ ์์ ๋ณํ๊ฐ ๋ต๋ณ์ ๋ฐ๊ฟ ์ ์์ต๋๋ค. ํ๋ ๋์ ์ฌ๋ฌ ์๋๋ฅผ ์ดํด๋ด์ผ๋ก์จ ๋จ์ผ ํ๊ฐ์ด๋ ์ค์์ ์ํฅ์ ์ค์ ๋๋ค.
- ์ํ ๋ฐ ๋ ผ๋ฆฌ ํผ์ฆ.
- ๋ค๋จ๊ณ ๋ถ์ ์ง๋ฌธ.
- ์ถ๋ก ์ ์์ ์ค์๊ฐ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ๊พธ๋ ๋ฏธ๋ฌํ ํธ๋ ์ด๋์คํ๊ฐ ์๋ ๊ฒฐ์ .
- ๋จ์ผ ํจ์ค ์ ํ๋๊ฐ 90% ๋ฏธ๋ง์ธ ๋ชจ๋ ๋๋ฉ์ธ ํน์ ์ถ๋ก .
๐ ์ ๋ฌธ๊ฐ ํ
10๊ฐ์ ์ถ๋ ฅ์ ์๋์ผ๋ก ๋น๊ตํ ํ์๊ฐ ์์ต๋๋ค. ์ต์ข ์ง๊ณ ๋จ๊ณ๋ฅผ ์ถ๊ฐํ์ญ์์ค: ๋ชจ๋ N๊ฐ์ ๋ต๋ณ์ ์ ํ๋กฌํํธ์ ๋ถ์ฌ๋ฃ๊ณ "๋ค์์ ๋์ผํ ์ง๋ฌธ์ ๋ํ 10๊ฐ์ ๋ต๋ณ์ ๋๋ค. ๊ฐ์ฅ ์์ฃผ ๋ํ๋๋ ๋ต๋ณ์ ๋ฌด์์ ๋๊น? ํฉ์ ๋ต๋ณ๊ณผ ์ ๋ขฐ๋ ์์ค์ ๋ง์ํด ์ฃผ์ญ์์ค."๋ผ๊ณ ๋ฌป์ต๋๋ค. ๋ชจ๋ธ์ด ํฌํ๋ฅผ ๋์ ํด์ค๋๋ค.
์์น๊ฐ ๋ณด์ฌ์ฃผ๋ ๊ฒ
์๋ณธ Wang et al. (2023) ๋ ผ๋ฌธ์ ์ฐ์ ์ถ๋ก (GSM8K ๋ฒค์น๋งํฌ)์์ ์๊ธฐ ์ผ๊ด์ฑ์ ์์ฐํ์์ผ๋ฉฐ, ์ด๋ ์ธ์ด ๋ชจ๋ธ ์ํ ๋ฅ๋ ฅ์ ํ์ค ํ ์คํธ์ ๋๋ค. ๊ฒฐ๊ณผ๋ ๋ช ํํ ํจํด์ ๋ณด์ฌ์ค๋๋ค:
ํจํด: ์ถ๊ฐ ์ํ๋ง๋ค ์ ํ๋๊ฐ ํฅ์๋์ง๋ง ์์ต ๊ฐ์๊ฐ ๋ฐ์ํฉ๋๋ค. 1๊ฐ์์ 5๊ฐ ์ํ๋ก ๊ฐ๋ ๊ฒ์ด ๊ฐ์ฅ ํฐ ํฅ์(+10 ํผ์ผํธํฌ์ธํธ)์ ๊ฐ์ ธ์ต๋๋ค. 20๊ฐ์์ 40๊ฐ๋ก ๊ฐ๋ฉด ๋จ 2 ํผ์ผํธํฌ์ธํธ๋ง ์ถ๊ฐ๋ฉ๋๋ค. ๋๋ถ๋ถ์ ์ค์ฉ์ ๋ชฉ์ ์ ์ํด 5~10๊ฐ ์ํ์ด ์ ํ๋์ ๋น์ฉ ์ฌ์ด์ ์ต์ ์ง์ ์ ๋๋ค. 20๊ฐ ์ํ ์ด์์์๋ ์ต์ํ์ ์ ํ๋ ํฅ์์ ์ํด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋ ๋ง์ ํ ํฐ์ ์๋นํ๊ฒ ๋ฉ๋๋ค.
| ๋ฐฉ๋ฒ | GSM8K ์ ํ๋ | ์ํ ์ | ๋น์ฉ ๋ฐฐ์ |
|---|---|---|---|
| ํ์ค ํ๋กฌํํ (chain-of-thought ์์) | 18% | 1 | 1ร |
| Chain-of-thought (๋จ์ผ ํจ์ค) | 56% | 1 | 1.5ร |
| ์๊ธฐ ์ผ๊ด์ฑ (5์ํ) | 66% | 5 | 7.5ร |
| ์๊ธฐ ์ผ๊ด์ฑ (10์ํ) | 70% | 10 | 15ร |
| ์๊ธฐ ์ผ๊ด์ฑ (20์ํ) | 72% | 20 | 30ร |
| ์๊ธฐ ์ผ๊ด์ฑ (40์ํ) | 74% | 40 | 60ร |
๐ ์๊ณ ๊ณ์ จ์ต๋๊น
์๊ธฐ ์ผ๊ด์ฑ์ ๋์ผํ ์ง๋ฌธ์ ์ฌ๋ฌ ๋ฒ ๋ฌป๊ณ ๋ค์๊ฒฐ ๋ต๋ณ์ ์ ํํ๋ ๊ฒ๋ง์ผ๋ก GSM8K ์ํ ์ ํ๋๋ฅผ 56%์์ 74%๋กโ32%์ ์๋์ ๊ฐ์ โํฅ์์์ผฐ์ต๋๋ค. ๋ชจ๋ธ ๋ณ๊ฒฝ ์์, ํ์ธํ๋ ์์, ์๋ก์ด ๋ฐ์ดํฐ ์์. ๋จ์ํ ์ํ๋ง๊ณผ ํฌํ๋ง ์์ ๋ฟ์ ๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ์ค์ ์๋ ๋ฐฉ์
์ค์ ๋ก ์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ๋ ๋จ๊ณ ํจํด์ ๋ฐ๋ฆ ๋๋ค: ๋ค์ํ ๋ต๋ณ์ ์์ฑํ ํ ์ง๊ณํฉ๋๋ค. ๊ณผ์ ํ๋กฌํํธ๋ ๋์ผํ๊ฒ ์ ์งํ๋ ๋ชจ๋ธ์ด ๋ค๋ฅธ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ํ์ํ ์ ์๋๋ก ๋ฌด์์์ฑ์ ํ์ฉํฉ๋๋ค.
์ผ๋ฐ์ ์ธ ํ๋ฆ:
- 1์ถ๋ก ์คํ์ผ ํ๋กฌํํธ(์ข ์ข chain-of-thought ์ง์นจ ํฌํจ)๋ฅผ ์ฌ์ฉํ๊ณ temperature๋ฅผ 0.7~1.0์ผ๋ก ์ค์ ํ์ฌ ๋ชจ๋ธ์ด ๋ค์ํ ์ค๋ช ์ ์์ฑํ๋๋ก ํฉ๋๋ค. Temperature๋ ๋ฌด์์์ฑ์ ์ ์ดํฉ๋๋ค: 0 = ๊ฒฐ์ ๋ก ์ (๋งค๋ฒ ๋์ผํ ๋ต๋ณ), 1.0 = ์ต๋ ๋ค์์ฑ.
- 2๋์ผํ ํ๋กฌํํธ๋ฅผ ์ฌ๋ฌ ๋ฒ(์: 5~20ํ) ์คํํ๊ณ ๋ชจ๋ ์ต์ข ๋ต๋ณ์ ์์งํฉ๋๋ค. ๊ฐ ์คํ์ ๋ ๋ฆฝ์ ์ด์ด์ผ ํฉ๋๋คโ๋ค๋ฅธ temperature ์ํ์ด์ด์ผ ํ๋ฉฐ, ์บ์๋ ๊ฒฐ๊ณผ๊ฐ ์๋๋๋ค.
- 3์ง๊ณ: ๊ฐ์ฅ ์์ฃผ ๋ํ๋๋ ๋ต๋ณ์ ๊ณ์ฐํ๊ฑฐ๋ ์ ์ฌํ ๋ต๋ณ์ ํด๋ฌ์คํฐ๋งํฉ๋๋ค. ๋ค์๊ฒฐ ๋ต๋ณ์ ์ต์ข ๊ฒฐ๊ณผ๋ก ์ฌ์ฉํฉ๋๋ค.
- 4์ ํ์ ์ผ๋ก, ๋ชจ๋ธ์๊ฒ ๋ถ์ผ์น๋ฅผ ์กฐ์ ํ๋๋ก ์์ฒญํ ์ ์์ต๋๋ค: "๋ค์์ ๋์ผํ ์ง๋ฌธ์ ๋ํ 10๊ฐ์ ๋ต๋ณ์ ๋๋ค. ๊ฐ์ฅ ์์ฃผ ๋ํ๋๋ ๊ฒ์ ๋ฌด์์ ๋๊น? ๋ถ์ผ์น์ ์ด์ ๊ฐ ์์ต๋๊น?" ์ด๋ ๊ฒ ํ๋ฉด ์ ๋ขฐ๋ ๋ฉํ๋ฐ์ดํฐ๊ฐ ์ถ๊ฐ๋ฉ๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ ๋ ๋ค์ค ๋ชจ๋ธ ํฉ์
์๊ธฐ ์ผ๊ด์ฑ์ ๋์ผํ ๋ชจ๋ธ์ ์ฌ๋ฌ ๋ฒ ์ํ๋งํฉ๋๋ค. ๋ค์ค ๋ชจ๋ธ ํฉ์๋ ๋ค๋ฅธ ๋ชจ๋ธ์ ๊ฐ๊ฐ ํ ๋ฒ์ฉ ์ํ๋งํฉ๋๋ค. ๋ ๋ฐฉ๋ฒ ๋ชจ๋ ๋์ผํ ์๋ฆฌ๋ฅผ ์ ์ฉํฉ๋๋คโ๋ค์ํ ์ถ๋ก ๊ฒฝ๋ก์ ๋ํ ๋ค์๊ฒฐ ํฌํโํ์ง๋ง ์๋ก ๋ค๋ฅธ ์คํจ ๋ชจ๋๋ฅผ ํฌ์ฐฉํฉ๋๋ค.
PromptQuorum์ ๋ค์ค ๋ชจ๋ธ ํฉ์๋ฅผ ๊ธฐ๋ณธ์ผ๋ก ์ง์ํฉ๋๋คโํ๋์ ํ๋กฌํํธ๋ฅผ ์ฌ๋ฌ ๋ชจ๋ธ์ ๋ถ๋ฐฐํ๊ณ ๋น๊ตํฉ๋๋ค. ์ค์ํ ๊ฒฐ์ ์ ๊ฒฝ์ฐ, ๋ ๊ฐ์ง๋ฅผ ๊ฒฐํฉํ์ญ์์ค: ์ฃผ์ ๋ชจ๋ธ ๋ด์์ ์๊ธฐ ์ผ๊ด์ฑ์ ์คํํ๊ณ ํฉ์ ๋ต๋ณ์ ๋ ๋ฒ์งธ ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ญ์์ค.
| ์ ๊ทผ๋ฒ | ์๋ ๋ฐฉ์ | ํฌ์ฐฉํ๋ ๊ฒ | ๋งน์ |
|---|---|---|---|
| ์๊ธฐ ์ผ๊ด์ฑ (๋จ์ผ ๋ชจ๋ธ) | ๋์ผํ ํ๋กฌํํธ, ๋์ผํ ๋ชจ๋ธ, T=0.7+ ์์ 5~20ํ ์คํ | ์ํ๋ง ๋ถ์์ ์ฑ, ๋ฌด์์ ์ค๋ฅ | ์ฒด๊ณ์ ์ธ ๋ชจ๋ธ ํธํฅ (๋ชจ๋ ์ํ์์ ๋์ผํ ํธํฅ) |
| ๋ค์ค ๋ชจ๋ธ ํฉ์ | ๋์ผํ ํ๋กฌํํธ, ๋ค๋ฅธ ๋ชจ๋ธ, ๊ฐ 1ํ ์คํ | ๋ชจ๋ธ ํน์ ํธํฅ, ์ํคํ ์ฒ ๋งน์ | ๋ชจ๋ ๋ชจ๋ธ์ด ๋์ผํ ํ์ต ๋ฐ์ดํฐ ๊ณต๋ฐฑ์ ๊ณต์ ํ ์ ์์ |
| ๊ฒฐํฉ (๊ฐ์ฅ ๊ฐ๋ ฅ) | ์ฌ๋ฌ ๋ชจ๋ธ ร ๊ฐ๊ฐ ์ฌ๋ฌ ์ํ | ๋ฌด์์ ์ค๋ฅ์ ์ฒด๊ณ์ ํธํฅ ๋ชจ๋ | ๋น์ฉ: N ๋ชจ๋ธ ร M ์ํ = NรM API ํธ์ถ |
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ์ฌ์ฉํด์ผ ํ ๋
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ํ๋ฆฐ ๋ต๋ณ์ ๋น์ฉ์ด ๋๊ณ ๊ณผ์ ๊ฐ ์ฌ์ํ์ง ์์ ์ถ๋ก ์ ํฌํจํ ๋ ์ฌ์ฉํด์ผ ํฉ๋๋ค. ๋ ๋์ ๊ฒฌ๊ณ ์ฑ์ ์ํด ๊ณ์ฐ๊ณผ ์ง์ฐ ์๊ฐ์ ํธ๋ ์ด๋ํฉ๋๋ค.
์ข์ ํ๋ณด๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ๋น์ฆ๋์ค ๋๋ ๊ธฐ์ ์ ๊ฒฐ์ ์ ์ด๋๋ ๋ถ์ ์ง๋ฌธ.
- ๋ ผ๋ฆฌ์ ์ค์๊ฐ ๋น์ผ ๋ณต์กํ ์ฝ๋ฉ ๊ณผ์ .
- ์ค๊ฐ ๋จ๊ณ๊ฐ ์ค์ํ ๊ต์ก ๋๋ ์ํ ์คํ์ผ์ ์ถ๋ก .
- ๋จ์ผ ์คํ์ด ๋ถ์์ ํ๋ค๊ณ ์ด๋ฏธ ๊ด์ฐฐ๋ ๋ชจ๋ ์ํฌํ๋ก.
- ์ํ ๋ฌธ์ , ๋ ผ๋ฆฌ ํผ์ฆ, ์ฐ๊ตฌ ํฉ์ฑ, ์ฌ๋ฌด ๋ถ์.
| ๊ธฐ๋ฒ | ์ํ ์ | ๋น์ฉ | ์ต์ ์ฉ๋ | ์ ํ๋ ํฅ์ |
|---|---|---|---|---|
| ๋จ์ผ ๋ต๋ณ (๊ธฐ์ค์ ) | 1 | 1ร | ๊ฐ๋จํ ๊ณผ์ , ๋ฎ์ ์ํ | โ |
| Chain-of-thought | 1 | ~1.5ร | ์ํ, ๋ ผ๋ฆฌ, ๋จ๊ณ๋ณ | ๋ณดํต (+5~10 pp) |
| ์๊ธฐ ์ผ๊ด์ฑ | 5~20 | 7.5~30ร | ์ด๋ ค์ด ์ถ๋ก , ๊ณ ์ํ | ํฐ ํฅ์ (GSM8K์์ +18 pp) |
| ๋ค์ค ๋ชจ๋ธ ํฉ์ | 3~5๊ฐ ๋ชจ๋ธ | 3~5ร | ๋ชจ๋ธ ํน์ ํธํฅ ํฌ์ฐฉ | ๋ณดํต~ํฐ ํฅ์ |
| ๋ ๊ฐ์ง ๊ฒฐํฉ | 5 ร 3๊ฐ ๋ชจ๋ธ | 15ร | ์ต๋ ์ ๋ขฐ๋ | ๊ฐ์ฅ ๋์ |
โ ๏ธ ๊ฒฝ๊ณ
temperature 0์์์ ์๊ธฐ ์ผ๊ด์ฑ์ ์ธ๋ชจ์์ต๋๋คโ๋ชจ๋ ์ํ์ด ๋์ผํ ์ถ๋ ฅ์ ์์ฑํฉ๋๋ค. ๋ค์๊ฒฐ ํฌํ๋ฅผ ์๋ฏธ ์๊ฒ ๋ง๋๋ ๋ณํ์ ์์ฑํ๋ ค๋ฉด temperature๋ฅผ 0.7 ์ด์์ผ๋ก ์ค์ ํด์ผ ํฉ๋๋ค. ์ด๊ฒ์ด ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๊ตฌํ ์ค์์ ๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ์ผ๋ฐ์ ์ธ ์ค์
์๊ธฐ ์ผ๊ด์ฑ์ ํผ์ํ๋ ํจ์ ๊ณผ ์ด๋ฅผ ํผํ๋ ๋ฐฉ๋ฒ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- temperature 0(๊ฒฐ์ ๋ก ์ ๋ชจ๋) ์ฌ์ฉ. ๋ฌธ์ ์ : ๋ชจ๋ ์ํ์ด ๋์ผํฉ๋๋ค. 10๊ฐ์ ๋์ผํ ๋ต๋ณ์ ํฌํํ๋ฉด ์๋ฌด๊ฒ๋ ์ ์ ์์ต๋๋ค. ํด๊ฒฐ์ฑ : temperature๋ฅผ 0.7~1.0์ผ๋ก ์ค์ ํ์ฌ ๋ค์ํ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์์ฑํ์ญ์์ค.
- ๋จ์ํ ์ฌ์ค ์ง๋ฌธ์ ์๊ธฐ ์ผ๊ด์ฑ ์ฌ์ฉ. ๋ฌธ์ ์ : "ํ๋์ค์ ์๋๋ ์ด๋์ ๋๊น?"๋ ๋งค๋ฒ "ํ๋ฆฌ"๋ฅผ ์์ฑํฉ๋๋ค. ์ ํ๋ ํฅ์ ์์ด ํ ํฐ์ 10๋ฐฐ ์๋นํ์ต๋๋ค. ํด๊ฒฐ์ฑ : ๋จ์ผ ์คํ ์ ํ๋๊ฐ ๊ด์ฐฐ ๊ฐ๋ฅํ๊ฒ 90% ๋ฏธ๋ง์ธ ๊ณผ์ ์๋ง ์๊ธฐ ์ผ๊ด์ฑ์ ์์ฝํ์ญ์์ค.
- ๋๋ฌด ์ ์ ์ํ(2~3๊ฐ) ์์ฑ. ๋ฌธ์ ์ : ๋์ํ์ง ์๋ 2๊ฐ์ ์ํ๋ก๋ ํ์ด๋ธ๋ ์ด์ปค๊ฐ ์์ต๋๋ค. 3๊ฐ์ ๊ฒฝ์ฐ 2-1 ๋ถํ ์ ์ฝํ ํฉ์๋ฅผ ์ ๊ณตํฉ๋๋ค. ํด๊ฒฐ์ฑ : ์ต์ 5๊ฐ์ ์ํ์ ์ฌ์ฉํ์ญ์์ค. 1โ5์ ์ ํ๋ ํฅ์์ด ๊ณก์ ์ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๋ถ๋ถ์ ๋๋ค.
- ์ต์ข ๋ต๋ณ ๋์ ์ ์ฒด ์๋ต ํ ์คํธ์ ํฌํ. ๋ฌธ์ ์ : ๋ ์๋ต์ด ์์ ํ ๋ค๋ฅธ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ํตํด ๋์ผํ ๋ต์ ๋๋ฌํ ์ ์์ต๋๋ค. ํ ์คํธ ๋น๊ต๋ ๋ค๋ฅด๋ค๊ณ ํ์ง๋ง ๋ต๋ณ ๋น๊ต๋ ๋์ํ๋ค๊ณ ํฉ๋๋ค. ํด๊ฒฐ์ฑ : ์ต์ข ๋ต๋ณ๋ง ์ถ์ถํ๊ณ ("Answer: X" ํ์ ์๊ตฌ) ๊ทธ๊ฒ์ ํฌํํ์ญ์์ค.
PromptQuorum์์์ ์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ
PromptQuorum์ ์ฌ๋ฌ ๋ต๋ณ์ ์ฝ๊ฒ ์์ฑํ๊ณ ๋น๊ตํ ์ ์๊ฒ ํ์ฌ ์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ์์ฐ์ค๋ฝ๊ฒ ๋ณด์ํ๋ ๋ค์ค ๋ชจ๋ธ AI ๋ถ๋ฐฐ ๋๊ตฌ์ ๋๋ค. "ํ๋์ ๋ชจ๋ธ์์ ์ฌ๋ฌ ์คํ"๊ณผ "ํ๋์ ํ๋กฌํํธ์ ๋ํ ์ฌ๋ฌ ๋ชจ๋ธ"์ ๋ ๊ฒน์ ์ผ๊ด์ฑ ๊ฒ์ฌ ๋ ์ด์ด๋ก ์ทจ๊ธํ ์ ์์ต๋๋ค.
PromptQuorum์ผ๋ก ๋ค์์ ํ ์ ์์ต๋๋ค:
- ์ถ๋ก ์ค์ฌ ํ๋ ์์ํฌ(์: TRACE ๋๋ APE)๋ฅผ ์ฌ์ฌ์ฉํ๊ณ ๋ชจ๋ธ๋น ์ฌ๋ฌ ๋ฒ ์คํํ์ฌ ๋ค์ํ chain-of-thought๋ฅผ ์์งํฉ๋๋ค.
- ๋์ผํ ์ถ๋ก ํ๋กฌํํธ๋ฅผ ์ฌ๋ฌ ๋ชจ๋ธ์ ๋๋ํ ์คํํ์ฌ ๋์ผํ ๋ต์ผ๋ก ์๋ ดํ๋์ง ํ์ธํฉ๋๋ค.
- ์๊ธฐ ์ผ๊ด์ฑ ์ํฌํ๋ก๋ฅผ ํ ํ๋ฆฟ์ผ๋ก ์ ์ฅํ์ฌ ํ์ด ํจํด์ ์ฒ์๋ถํฐ ์ค๊ณํ์ง ์๊ณ ๋ "์ฌ๋ฌ ๋ฒ ์ํ๋งํ ํ ์ง๊ณ"๋ฅผ ๋ฐ๋ณต์ ์ผ๋ก ์ ์ฉํ ์ ์์ต๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ฌ์ฉ ๋ฐฉ๋ฒ
- 1๋ณต์กํ ์ถ๋ก ๊ณผ์ ์ ๊ฒฝ์ฐ, ๋ค๋ฅธ ๋ฌด์์ ์๋๋ก ๋์ผํ ํ๋กฌํํธ์์ ์ฌ๋ฌ ์ถ๋ ฅ(5~10๊ฐ)์ ์์ฑํ์ญ์์ค. ๋์ผํ ์ง๋ฌธ์ 5๋ฒ ๋ฌป์ต๋๋ค. 5๊ฐ์ ๋ค๋ฅธ ์๋ต์ ์ป๊ฒ ๋ฉ๋๋ค.
- 2์ถ๋ ฅ์ ๋ถ์ํ์ฌ ์ผ๊ด๋ ํจํด('ํฉ์')์ ์ฐพ์ผ์ญ์์ค. 5๊ฐ์ ์๋ต ์ค 4๊ฐ๊ฐ ๋์ผํ ๋ต์ ๋์ํ๋ฉด, ๊ทธ ๋์๊ฐ ์ ๋ขฐ๋ ์ ํธ์ ๋๋ค. 5๊ฐ ๋ชจ๋ ๋์ํ์ง ์์ผ๋ฉด, ๊ณผ์ ๊ฐ ๋ชจํธํ๊ฑฐ๋ ํ๋กฌํํธ๋ฅผ ๊ฐ์ ํด์ผ ํฉ๋๋ค.
- 3์ฐ๊ตฌ ๋ฐ ์ง์ ๊ณผ์ ์์ ํ๊ฐ์ ๊ฐ์งํ๊ธฐ ์ํด ์๊ธฐ ์ผ๊ด์ฑ์ ์ฌ์ฉํ์ญ์์ค. "ํ๋์ค์ ์๋๋ ์ด๋์ ๋๊น?"๋ฅผ ๋ฌผ์ ๋ 3๊ฐ์ ์๋ต์ด "ํ๋ฆฌ"๋ผ๊ณ ํ๊ณ 2๊ฐ๊ฐ "๋ฆฌ์น"์ด๋ผ๊ณ ํ๋ฉด, ํฉ์(ํ๋ฆฌ)๊ฐ ๋ต๋ณ์ ๋๋ค. ๋ฌด์์๋ก ๋ค๋ฅธ ๋์๋ค์ ๋ณด๋ฉด ๋ชจ๋ธ์ด ํ๊ฐํ๊ณ ์๋ ๊ฒ์ ๋๋ค.
- 4๋ค์ํ ์ถ๋ ฅ์ ์ฅ๋ คํ๊ธฐ ์ํด Temperature(T)๋ฅผ ๋๊ฒ(0.7~1.0) ์ค์ ํ์ญ์์ค. ๋ฎ์ temperature(T = 0)๋ ๋งค๋ฒ ๋์ผํ ๊ฒฐ์ ๋ก ์ ์ถ๋ ฅ์ ์์ฑํ์ฌ ๋ชฉ์ ์ ์์คํฉ๋๋ค. ์๊ธฐ ์ผ๊ด์ฑ์ ํฉ์๋ฅผ ์ฐพ๊ธฐ ์ํด ๋ณํ์ด ํ์ํฉ๋๋ค.
- 5๋น์ฉ์ด ํ์ฉํ๋ ํ๋ก๋์ ํ์ดํ๋ผ์ธ์์ ์๊ธฐ ์ผ๊ด์ฑ์ ๊ตฌํํ์ญ์์ค. 5~10๋ฐฐ ๋ ๋ง์ ์์ฑ์ ์คํํ๋ ๊ฒ์ ๋น์ธ์ง๋ง, ์ค์ํ ๊ฒฐ์ (์๋ฃ ์กฐ์ธ, ๊ธ์ต ๊ถ์ฅ ์ฌํญ, ์ฐ๊ตฌ ํฉ์ฑ)์ ๊ฒฝ์ฐ ํฉ์ ์ ํธ๊ฐ ๋น์ฉ์ ์ ๋นํํฉ๋๋ค.
๊ด๋ จ ์ฝ๊ธฐ
- Chain-of-Thought ํ๋กฌํํ โ ์๊ธฐ ์ผ๊ด์ฑ์ด ์ฌ๋ฌ ๊ฒฝ๋ก๋ก ํ์ฅํ๋ ๋จ์ผ ๊ฒฝ๋ก ์ถ๋ก ๊ธฐ๋ฒ
- Tree-of-Thought ๋ฐ ReAct โ ์๊ธฐ ์ผ๊ด์ฑ๊ณผ ๊ด๋ จ๋ ๋ถ๊ธฐ ์ถ๋ก ์ ๊ทผ๋ฒ
- ํ๋กฌํํธ ์ธ์ ์ ๋ฐ ๋ณด์ โ ๋ค์ค ์ํ ํ์ดํ๋ผ์ธ ๊ตฌํ ์ ๋ณด์ ๊ณ ๋ ค ์ฌํญ
- Temperature ๋ฐ Top-P โ ์๊ธฐ ์ผ๊ด์ฑ์ ์๋์ํค๋ ์ํ๋ง ํ๋ผ๋ฏธํฐ
- ํ๋กฌํํธ ์ฒด์ด๋ โ ๊ฐ ๋จ๊ณ์์ ์๊ธฐ ์ผ๊ด์ฑ์ ์ ์ฉํ ์ ์๋ ๋ค๋จ๊ณ ์ํฌํ๋ก
- AI ํ๊ฐ: ๊ฐ์ง ๋ฐ ๋ฐฉ์ง ๋ฐฉ๋ฒ โ ํ๊ฐ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก์์ ์๊ธฐ ์ผ๊ด์ฑ
์ถ์ฒ
- Wang et al. (2023). "Self-Consistency Improves Chain of Thought Reasoning in Language Models." ICLR 2023. arXiv:2203.11171 โ ์ถ๋ก ๊ฒฝ๋ก์ ๋ํ ๋ค์๊ฒฐ ํฌํ๋ก ์๊ธฐ ์ผ๊ด์ฑ์ ๋์ ํ ๊ธฐ์ด ๋ ผ๋ฌธ
- Wei et al. (2022). "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. arXiv:2201.11903 โ ์๊ธฐ ์ผ๊ด์ฑ์ด ๊ธฐ๋ฐํ๋ chain-of-thought ๋ ผ๋ฌธ
- Brown et al. (2020). "Language Models are Few-Shot Learners." NeurIPS 2020. arXiv:2005.14165 โ CoT์ ์๊ธฐ ์ผ๊ด์ฑ ๋ชจ๋๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ ์ธ์ปจํ ์คํธ ํ์ต์ ๋ํ ๊ธฐ์ด ์ฐ๊ตฌ
- Anthropic. "Prompt Engineering Guide." docs.anthropic.com โ ํ๋ก๋์ ์์ temperature ํ๋ ๋ฐ ์ํ๋ง์ ๋ํ ๋ชจ๋ฒ ์ฌ๋ก
์์ฃผ ๋ฌป๋ ์ง๋ฌธ
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ด๋ ๋ฌด์์ ๋๊น?
์๊ธฐ ์ผ๊ด์ฑ ํ๋กฌํํ ์ ๋์ผํ ์ง๋ฌธ์ ๋ํด ์ฌ๋ฌ ๋ ๋ฆฝ์ ์ธ ๋ต๋ณ์ ์์ฑํ๊ณ โ๊ฐ๊ฐ ์์ฒด ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ๊ฐ์งโ๊ฐ์ฅ ์์ฃผ ๋ํ๋๋ ๋ต๋ณ์ ์ ํํ๋ ๊ธฐ๋ฒ์ ๋๋ค. ํ๋์ AI ์๋ต์ ์ ๋ขฐํ๋ ๋์ , ๋ง์ ์๋ต์ ํฉ์๋ฅผ ์ ๋ขฐํฉ๋๋ค. Wang et al. (2023)์ด ๋์ ํ์์ผ๋ฉฐ ์ํ, ๋ ผ๋ฆฌ, ๋ค๋จ๊ณ ์ถ๋ก ๊ณผ์ ์์ ์ ํ๋๋ฅผ ํฌ๊ฒ ํฅ์์ํต๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ์ ๋ช ๊ฐ์ ์ํ์ด ํ์ํฉ๋๊น?
๋๋ถ๋ถ์ ๊ณผ์ ์์ 5~10๊ฐ์ ์ํ์ด ์ต์ ์ ์ ํ๋ ๋ ๋น์ฉ ๋น์จ์ ์ ๊ณตํฉ๋๋ค. ์๋ณธ ๋ ผ๋ฌธ์ 1~5๊ฐ ์ํ์์ ์ ํ๋๊ฐ ๋น ๋ฅด๊ฒ ํฅ์๋๊ณ 20๊ฐ ์ดํ์๋ ์์ต ๊ฐ์๊ฐ ๋ฐ์ํจ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค. GSM8K์์ 20๊ฐ์์ 40๊ฐ ์ํ๋ก ๊ฐ๋ ๊ฒ์ ๋จ 2 ํผ์ผํธํฌ์ธํธ๋ง ์ถ๊ฐ๋์์ต๋๋ค. 5๊ฐ๋ก ์์ํ๊ณ , ๊ณ ์ํ ๊ฒฐ์ ์๋ง 10~20๊ฐ๋ก ๋๋ฆฌ์ญ์์ค.
์๊ธฐ ์ผ๊ด์ฑ์ด ๋จ์ํ ๊ณผ์ ์์๋ ์๋ํฉ๋๊น?
์๋ฏธ ์๊ฒ ์๋ํ์ง ์์ต๋๋ค. ์ฌ์ค ์กฐํ, ๋จ์ ๋ถ๋ฅ, ๋๋ ๋จํธ ์๋ฌธ์ ๊ฒฝ์ฐ ๋จ์ผ ๋ต๋ณ์ด ๊ฑฐ์ ํญ์ ์ถฉ๋ถํ๋ฉฐ ํจ์ฌ ์ ๋ ดํฉ๋๋ค. ์๊ธฐ ์ผ๊ด์ฑ์ ๋ชจ๋ธ์ ๋จ์ผ ํจ์ค ์ ํ๋๊ฐ ~90% ๋ฏธ๋ง์ธ ๊ณผ์ โ์ผ๋ฐ์ ์ผ๋ก ์ํ, ๋ ผ๋ฆฌ ํผ์ฆ, ๋ค๋จ๊ณ ๋ถ์, ๋ณต์กํ ์ถ๋ก โ์์๋ง ๊ฐ์น๋ฅผ ์ถ๊ฐํฉ๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ์๋ ์ด๋ค temperature๋ฅผ ์ฌ์ฉํด์ผ ํฉ๋๊น?
temperature๋ฅผ 0.7~1.0์ผ๋ก ์ค์ ํ์ญ์์ค. ์ด ๊ธฐ๋ฒ์ ๋ค์ํ ์ถ๋ก ๊ฒฝ๋ก๊ฐ ํ์ํฉ๋๋คโtemperature๊ฐ 0(๊ฒฐ์ ๋ก ์ )์ด๋ฉด ๋ชจ๋ ์ํ์ด ๋์ผํ ์ถ๋ ฅ์ ์์ฑํ๊ณ ํฌํ๋ ์๋ฏธ๊ฐ ์์ต๋๋ค. ๋ ๋์ temperature๋ ๋ค์๊ฒฐ ํฌํ๋ฅผ ์๋ฏธ ์๊ฒ ๋ง๋๋ ๋ณํ์ ์์ฑํฉ๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ์ ๋น์ฉ์ด ์ผ๋ง๋ ๋ ๋ง์ด ๋๋์?
5~20๊ฐ์ ์์ ํ ์๋ต ๋์ ํ๋๋ฅผ ์์ฑํ๋ฏ๋ก ์์ ๋น ์ฝ 5~20๋ฐฐ ๋ ๋ง์ ํ ํฐ์ด ํ์ํฉ๋๋ค. $0.01์ ๋น์ฉ์ด ๋๋ ์๋ต์ ๊ฒฝ์ฐ, 10๊ฐ ์ํ์ ์๊ธฐ ์ผ๊ด์ฑ์ $0.10์ด ๋ฉ๋๋ค. ์ด๋ ์ค์ํ ๊ฒฐ์ (์ฌ๋ฌด ๋ถ์, ์๋ฃ ์ถ๋ก , ๋ฒ์ ํด์)์์ ์ ๋นํ๋์ง๋ง ์ผ์์ ์ธ ๊ณผ์ ์๋ ๋ญ๋น์ ๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ์ด "best-of-N" ์ํ๋ง๊ณผ ๊ฐ์ต๋๊น?
์ ์ฌํ์ง๋ง ๋์ผํ์ง ์์ต๋๋ค. Best-of-N์ N๊ฐ์ ์๋ต์ ์์ฑํ๊ณ ๊ฐ์ฅ ์ข์ ๊ฒ์ ์ ํํฉ๋๋ค(์ข ์ข ํ์ง ์ค์ฝ์ด๋ฌ์ ์ํด). ์๊ธฐ ์ผ๊ด์ฑ์ N๊ฐ์ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์์ฑํ๊ณ ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๋ต๋ณโํ์ง์ด ์๋ ๊ฒฐ๋ก ์ ๋ํ ํฌํโ์ ์ ํํฉ๋๋ค. ์๊ธฐ ์ผ๊ด์ฑ์ ํ์ง ์ค์ฝ์ด๋ฌ๊ฐ ํ์ ์์ต๋๋ค; ๋์๋ฅผ ์ ํธ๋ก ์ฌ์ฉํฉ๋๋ค.
์๊ธฐ ์ผ๊ด์ฑ์ chain-of-thought ํ๋กฌํํ ๊ณผ ํจ๊ป ์ฌ์ฉํ ์ ์์ต๋๊น?
์โ์ด๊ฒ์ด ์๋ณธ์ด์ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ์กฐํฉ์ ๋๋ค. N๊ฐ์ ๊ฐ ์ํ์ chain-of-thought ์ถ๋ก ์ ์ฌ์ฉํ์ฌ ์ ์ฒด ์ถ๋ก ์ถ์ ๊ณผ ์ต์ข ๋ต๋ณ์ ์์ฑํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ๋ชจ๋ N๊ฐ์ ์ถ์ ์์ ์ต์ข ๋ต๋ณ์ ํฌํํฉ๋๋ค. ์ถ๋ก ๊ฒฝ๋ก๋ ๋ค๋ฅผ ์ ์์ง๋ง ๋๋ถ๋ถ์ด ๋์ผํ ๊ฒฐ๋ก ์ ๋๋ฌํ๋ฉด ๊ทธ ๊ฒฐ๋ก ์ ๊ฒฌ๊ณ ํฉ๋๋ค.
PromptQuorum์ด ์๊ธฐ ์ผ๊ด์ฑ๊ณผ ์ด๋ป๊ฒ ๊ด๋ จ๋ฉ๋๊น?
PromptQuorum์ ํ๋์ ๋ชจ๋ธ ๋ด์์ ๋์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๊ฑธ์ณ ๋์ผํ ํฉ์ ์๋ฆฌ๋ฅผ ์ ์ฉํฉ๋๋ค. ๋์ผํ ๋ชจ๋ธ์ 10๋ฒ ๋ฌป๋ ๋์ , 5๊ฐ์ ๋ค๋ฅธ ๋ชจ๋ธ์ ๊ฐ๊ฐ ํ ๋ฒ์ฉ ๋ฌป๊ณ ๋ต๋ณ์ ๋น๊ตํฉ๋๋ค. ๋์ํ๋ ๊ฒฝ์ฐ ์ ๋ขฐ๋๊ฐ ๋์ต๋๋ค. ๋์ํ์ง ์๋ ๊ฒฝ์ฐ ์ฃผ์ฅ์ ํ์ธํด์ผ ํฉ๋๋ค. ์ด๋ ๋จ์ผ ๋ชจ๋ธ ์๊ธฐ ์ผ๊ด์ฑ์ด ๊ฐ์งํ ์ ์๋ ๋ชจ๋ธ ํน์ ํธํฅ์ ํฌ์ฐฉํฉ๋๋ค.