6GB VRAM에 최적화된 양자화: 어떤 레벨이 적합한가?
빠른 답변
Q4_K_M이 최적입니다. 7B/8B 모델의 Q4_K_M은 4.7~4.9GB를 사용하며 KV 캐시에 1.1GB를 남깁니다. Q5_K_M도 가능하지만 컨텍스트를 2k 토큰으로 제한해야 합니다. 6GB 카드에서 Q6_K 이상은 사용하지 마십시오.
- ▸Llama 3.3 8B / Mistral Small / Qwen 3 7B의 Q4_K_M: 4.7~4.9GB — 4k 컨텍스트로 6GB에서 실행 가능
- ▸Q5_K_M은 ~5.7GB 사용 — 실행 가능하지만 OOM 방지를 위해 컨텍스트를 2k 토큰으로 제한해야 합니다
- ▸14B 모델의 Q4_K_M은 9.3GB 필요 — 어떤 양자화 레벨도 6GB에서 실행 불가능합니다
업데이트: 2026-05
핵심 요점
- ✓6GB VRAM 카드(RTX 3060 6GB, RTX 3050 6GB, GTX 1660 Ti 6GB)에서 7B 및 8B 모델에는 Q4_K_M이 올바른 양자화 설정입니다
- ✓Q4_K_M은 1.1GB를 여유 공간으로 남깁니다 — Ollama 기본 컨텍스트 크기 2048에서 4k 토큰 KV 캐시로 충분합니다
- ✓Q5_K_M은 퍼플렉시티를 ~1포인트 개선하지만 5.7GB를 사용합니다. 메모리 부족 오류를 방지하려면 `--ctx-size`를 2048로 줄이십시오
- ✓14B 모델(Qwen 3 14B, Llama 3.3 13B)은 Q4_K_M에서 9.3GB가 필요합니다 — 어떤 양자화 레벨로도 6GB에서 실행이 불가능합니다
6GB에서 7B/8B 모델의 양자화 레벨별 VRAM 사용량
양자화 레벨은 모델이 사용하는 VRAM 용량을 직접 제어합니다. 70억 및 80억 파라미터 모델 — 6GB GPU에 들어갈 수 있는 가장 큰 클래스 — 의 경우 실용적인 옵션은 Q3_K_M에서 Q5_K_M까지입니다. Q2_K는 들어가지만 품질이 유용한 수준 이하로 저하됩니다. Q6_K 이상은 6GB 한도를 초과합니다.
Q4_K_M이 권장 기본값입니다. 이 양자화에서 7B 모델은 약 4.7GB를, 8B 모델은 4.9GB를 사용합니다. 이를 통해 Ollama가 컨텍스트 창에 할당하는 KV 캐시에 1.1GB가 남습니다. 기본 2048 토큰 컨텍스트에서는 충분합니다. 컨텍스트를 4096 토큰으로 늘리면 7B 모델에서 약 0.5GB의 추가 KV 캐시가 필요하지만 대부분의 6GB 카드에서 여전히 예산 내에 있습니다.
Q5_K_M은 그 다음 단계입니다. Q5_K_M에서 8B 모델은 약 5.7GB를 사용하여 300MB만 여유 공간이 남습니다. 매우 짧은 컨텍스트(512~2048 토큰)에는 충분하지만 더 긴 대화나 시스템 프롬프트에서는 OOM 오류가 발생합니다. `num_ctx`를 2048 이하로 유지하는 경우에만 Q5_K_M을 사용하십시오.
| 양자화 | 7B VRAM | 8B VRAM | 6GB 적합 여부 | 최대 컨텍스트 (근사치) |
|---|---|---|---|---|
| Q2_K | ~2.8 GB | ~3.0 GB | ✓ (품질 낮음) | 8k+ |
| Q3_K_M | ~3.5 GB | ~3.7 GB | ✓ (양호) | 8k+ |
| Q4_K_M | ~4.7 GB | ~4.9 GB | ✓ 권장 | 4k |
| Q5_K_M | ~5.5 GB | ~5.7 GB | ⚠ 빠듯함 (2k 컨텍스트만) | 2k |
| Q6_K | ~6.4 GB | ~6.6 GB | ✗ OOM | — |
| Q8_0 | ~7.5 GB | ~7.7 GB | ✗ OOM | — |
6GB VRAM에서 Q4_K_M으로 실행할 수 있는 최고의 모델
6GB 카드에서 Q4_K_M으로 세 가지 7B/8B 모델이 두드러집니다. Qwen 3 7B Instruct는 가장 균형 잡혀 있습니다 — 코드 성능 우수(HumanEval ~60%), 다국어 지원, 128k 컨텍스트 아키텍처(단, VRAM 제한으로 4k에서 작동). `ollama run qwen2.5:7b`로 실행하십시오.
Llama 3.3 8B는 가장 빠른 옵션입니다. Q4_K_M에서 RTX 3060 6GB 기준 약 25 토큰/초로 실행되며 일반 대화 및 지시 따르기를 안정적으로 처리합니다. MMLU 점수 66.6%는 Qwen 3 7B보다 낮지만 속도 이점 덕분에 대화형 세션에 적합합니다.
Phi-4 Mini (3.8B)는 의외의 선택입니다. Q8_0에서 약 4.1GB를 차지하여 6GB 내에 편안하게 들어가며 추론 벤치마크에서 동일 크기 클래스를 능가합니다. 이전 7B 모델보다 더 나은 추론으로 5GB 미만의 메모리 사용이 필요할 때 사용하십시오. `ollama run phi4-mini`로 실행하십시오.
6GB에서 14B 모델은 시도하지 마십시오. Q4_K_M에서 Qwen 3 14B는 9.3GB가 필요합니다. Q2_K로 낮추면 약 5.5GB로 줄어들지만 퍼플렉시티 패널티가 심각합니다 — 모델이 현저히 저하된 출력을 생성합니다. Q4_K_M의 7B/8B 또는 Q8_0의 3B/4B 모델을 사용하십시오.