Home/Local LLMs/VRAM 계산기 2026: 7B/13B/70B LLM GPU 요구 사항 (Q4, Q5, Q8)

Hardware & Performance

VRAM 계산기 2026: 7B/13B/70B LLM GPU 요구 사항 (Q4, Q5, Q8)

Last updated: April 2026·10분 소요·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

이 가이드는 모든 모델과 하드웨어 조합에 대한 정확한 VRAM 요구 사항을 계산하는 방법을 설명합니다. 공식은 간단합니다: (모델 크기 GB × 양자화 비트) ÷ 8 = 필요 VRAM.

로컬 LLM을 위한 인터랙티브 VRAM 계산기입니다. 모델 크기, 양자화, 컨텍스트 길이, 배치 크기를 입력하면 정확한 GPU VRAM 요구량을 계산합니다. FP16, Q8, Q5, Q4 양자화 방식으로 1B~405B 모델을 지원합니다. RTX 4090, 4080, 3060 적합성 분석 및 오버헤드 계산이 2026년 4월 기준으로 업데이트되었습니다.

Slide Deck: VRAM 계산기 2026: 7B/13B/70B LLM GPU 요구 사항 (Q4, Q5, Q8)

아래 슬라이드 덱은 다음 내용을 다룹니다: VRAM 공식 (모델 파라미터 수(B) × 양자화 비트) ÷ 8, Q2~FP16 양자화 수준과 품질 절충점, 빠른 참조 표(3B~70B 모델), 실제 GPU 시나리오(RTX 4090, 4080, M5 Max), 지역 규정 준수(EU GDPR, 일본 APPI, 중국 데이터보안법). PDF를 VRAM 계산기 참조 카드로 다운로드하십시오.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

VRAM = (모델 크기 × 양자화 비트) ÷ 8
FP16 = 16비트, Q8 = 8비트, Q5 = 5비트, Q4 = 4비트
예시: 13B 모델 Q4 = (13 × 4) ÷ 8 = 6.5 GB
컨텍스트, 시스템 오버헤드, 안전 마진을 위해 항상 25% 버퍼를 추가하십시오
2026년 4월 기준, 이 공식의 정확도는 ±10% 이내입니다

빠른 사실: GPU별 VRAM 요구 사항

RTX 4090 (24 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB), 70B는 오프로딩 사용 시 Q4로 가능
RTX 4080 (16 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB), 32B(Q4, 16 GB)
RTX 4070 Ti (12 GB): Llama 3.3 7B(Q4, 3.5 GB), 13B(Q5, 8.1 GB, 여유 공간 부족)
M5 Max Mac (36 GB 통합 메모리): Llama 3.3 13B(FP16, 26 GB), 70B는 극단적 양자화 없이 불가
경험 법칙: 컨텍스트, 배칭, 시스템 오버헤드를 위해 항상 공식 결과보다 25~40% 추가 VRAM을 확보하십시오

한 문장 요약

필요한 VRAM(GB)은 모델 파라미터 수(B)에 양자화 비트(FP16의 경우 16, Q8은 8, Q4는 4 등)를 곱한 뒤 8로 나눈 값입니다.

쉬운 설명

VRAM을 책장 공간으로 생각하십시오. 두꺼운 책(70B처럼 파라미터가 많은 모델)은 더 많은 공간을 차지하고, 얇은 책(Q4 양자화)은 두꺼운 책(FP16)보다 공간을 덜 차지합니다. 공식은 필요한 "책장 칸 수(GB)"를 정확히 알려줍니다. 대화, 동시 요청 처리, 시스템 소프트웨어를 위해 항상 여분의 공간을 남겨 두십시오.

VRAM 공식이란 무엇입니까?

VRAM 요구량 공식은 놀랍도록 단순합니다:

💡 프로 팁: 이 공식은 모델 가중치만 계산합니다. 컨텍스트, 배칭, 시스템 오버헤드로 인해 실제 VRAM 사용량은 25~40% 더 높습니다. 항상 안전 마진을 추가하십시오.

bash

VRAM (GB) = (모델 크기(B) × 양자화 비트) ÷ 8

예시:
- 7B 모델, 4비트 양자화
- (7 × 4) ÷ 8 = 3.5 GB

- 13B 모델, 5비트 양자화
- (13 × 5) ÷ 8 = 8.125 GB

- 70B 모델, 8비트 양자화
- (70 × 8) ÷ 8 = 70 GB

VRAM 공식과 3가지 계산 예시: 7B 모델 Q4 = 3.5 GB, 13B Q5 = 8.1 GB, 70B Q8 = 70 GB. 컨텍스트, 배칭, 시스템 오버헤드를 위해 항상 25~40% 버퍼를 추가하십시오.

인터랙티브 VRAM 계산기

이 계산기를 사용하면 모델, 양자화, 컨텍스트, 배치 크기의 모든 조합에 대해 정확한 VRAM 요구량을 계산할 수 있습니다. 구성을 선택하면 어떤 GPU에 적합한지 확인할 수 있습니다.

Popular Models

Model Size

Quantization

Context Length

Batch Size

Use Case

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

Always use the "with safety margin" figure when buying a GPU
Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
Context overhead grows with conversation length. Budget 1-3 GB for typical usage
Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

양자화 수준이란 무엇입니까?

🔍 핵심 인사이트: 양자화는 파일 크기와 품질을 맞바꿉니다. Q5가 최적의 균형점입니다(품질 95%, 크기 68% 감소). Q4는 대부분의 사용자에게 적합합니다. Q3 이하는 엣지 디바이스나 VRAM이 심각하게 부족한 경우에만 사용하십시오.

양자화	크기 감소	품질	속도	사용 사례
FP16 (16비트)	없음 (기준)	100% (완벽)	기준	연구, 파인튜닝
Q8 (8비트)	50%	99% (차이 없음)	기준	프로덕션, 로컬 서버
Q6 (6비트)	62.5%	98% (미미한 차이)	기준	균형 사용
Q5 (5비트)	68.75%	95% (약간의 손실)	기준	좋은 압축, 소비자용
Q4 (4비트)	75%	90~95% (허용 가능)	기준	최대 압축
Q3 (3비트)	81%	80~85% (눈에 띄는 손실)	더 빠름	극단적 압축, CPU용
Q2 (2비트)	87.5%	70% (가시적 손실)	가장 빠름	소형 모델, 엣지 디바이스

양자화 수준 비교: FP16(품질 100%), Q8(99%), Q5(95%, 권장), Q4(90~95%), Q3(80~85%), Q2(70%). Q5는 7B 모델을 14 GB에서 4.4 GB로 줄이면서 품질 손실은 5%에 불과합니다.

빠른 참조 표: 모델 및 양자화별 VRAM

모델	FP16	Q8	Q5	Q4
3B	6 GB	3 GB	1.9 GB	1.5 GB
7B	14 GB	7 GB	4.4 GB	3.5 GB
13B	26 GB	13 GB	8.1 GB	6.5 GB
32B	64 GB	32 GB	20 GB	16 GB
70B	140 GB	70 GB	43.75 GB	35 GB

VRAM 빠른 참조 매트릭스: FP16, Q8, Q5, Q4 양자화에서 3B~70B 모델. 초록색 = 12 GB GPU에 적합. 황색 = 16~24 GB 필요. 빨간색 = 40 GB 이상 또는 멀티 GPU 필요.

실제 사례

일반적인 시나리오에 대한 실용적인 VRAM 계산:

⚠️ 주의: 이 계산은 모델 가중치만을 대상으로 합니다. 컨텍스트, 배치 처리, 시스템 오버헤드를 위해 25~40%를 추가하십시오. 예: 13B Q5 = 8.1 GB 모델 + 2~3 GB 오버헤드 = 실제 10~11 GB.

RTX 4070 Ti (12 GB): Llama 3.3 7B Q4 = 3.5 GB ✓(여유 충분). Llama 3.3 13B Q5 = 8.1 GB ✓(컨텍스트/배칭 없이 작동).
RTX 4090 (24 GB): Llama 3.3 70B Q5 = 43.75 GB ✗(너무 큼). Llama 3.3 70B Q4 = 35 GB ✗(여전히 초과). Llama 3.3 70B Q4 + 오프로딩 = 작동(느림, 3~5 tok/sec).
M5 Max Mac (36 GB): Llama 3.3 13B FP16 = 26 GB ✓(작동). Llama 3.3 70B = 불가(Q2에서도 품질 손실 ~70%).

실제 GPU 시나리오: RTX 4090(24 GB), RTX 4080(16 GB), RTX 4070 Ti(12 GB), M5 Max Mac(36 GB), RTX 3060(12 GB) — 각 GPU에서 다양한 양자화 수준으로 실행 가능한 Llama 3.3 모델.

숨겨진 VRAM 오버헤드를 어떻게 고려해야 합니까?

공식은 모델 가중치만 계산합니다. 실제 VRAM 사용량은 여러 요소로 인해 더 높습니다. 계산된 양 이상으로 25~40%를 추가로 확보하십시오.

컨텍스트 윈도우(키-값 캐시)는 추론 중 대화 기록을 저장합니다. 7B 모델에서 4k 토큰 컨텍스트는 약 2~3 GB를 사용합니다.

📌 핵심 포인트: 배치 처리는 VRAM 사용량을 선형으로 증가시킵니다. 동시 프롬프트가 추가될 때마다(여러 요청을 동시에 처리할 때) 컨텍스트 길이에 따라 500 MB~2 GB의 추가 메모리가 사용됩니다. batch=4로 실행하면 단일 요청 VRAM에 4를 곱하고 오버헤드를 추가하십시오.

운영 체제와 추론 엔진 프레임워크(Ollama, vLLM, llama.cpp)의 시스템 오버헤드로 500 MB~1 GB가 예약됩니다. GPU를 선택할 때는 항상 안전 마진을 유지하십시오.

숨겨진 VRAM 오버헤드 분석: 컨텍스트 윈도우(4k 토큰 기준 2~3 GB), 배치 처리(batch=4 시 ×4), 시스템 오버헤드(500 MB~1 GB), 총 안전 마진 25~40%.

내 GPU에 맞는 로컬 LLM은? 2026 가이드

위의 인터랙티브 계산기를 사용하여 정확한 적합 여부를 확인하십시오. 아래는 일반적인 GPU 시나리오와 권장 모델입니다.

RTX 3060 (12 GB): 최선의 모델: Qwen3 7B Q5(4.4 GB) ✓. 대안: Llama 3.2 8B Q4(4 GB) ✓. 불가: 32B 이상 모델.
RTX 4070 (12 GB): 최선의 모델: Qwen3 13B Q4(6.5 GB) ✓. 여유 있는 옵션: Llama 3.2 8B Q5(5 GB) ✓. 불가: 32B 모델.
RTX 4070 Ti (12 GB): 최선의 모델: Qwen3 13B Q5(8.1 GB) ✓. 빡빡한 적합: Llama 3.3 13B Q4(6.5 GB) ✓. 비권장: 배치 처리.
RTX 4080 (16 GB): 최선의 모델: Qwen3 32B Q4(16 GB) ✓ 빡빡. 여유 있는 옵션: Mistral 3.1 24B Q5(15 GB) ✓. 권장: Llama 3.3 13B Q8(13 GB) ✓.
RTX 4090 (24 GB): 최선의 모델: Qwen3 32B Q5(20 GB) ✓. 오프로딩 사용: Llama 3.3 70B Q4(35 GB, 오프로딩 필요). 여유 있는 옵션: 32B 모델 Q5/Q8.
RTX 5090 (32 GB, 출시 예정): 최선의 모델: Llama 3.3 70B Q4(35 GB, 빡빡). 더 나은 옵션: Qwen3 72B Q3(27 GB) ✓. 여유 있는 옵션: 70B Q5+ + 배칭.

공식은 얼마나 정확합니까?

공식은 대부분의 경우 ±10% 이내로 정확합니다. 실제 VRAM 사용량은 구현 방식, 모델 아키텍처, 추론 엔진 최적화에 따라 달라집니다.

변동 요인에는 다음이 포함됩니다: 다양한 양자화 형식(GGUF vs safetensors vs AWQ), 모델 아키텍처(Transformer vs 비-Transformer), 추론 엔진별 최적화(vLLM, llama.cpp, Ollama).

2026년 4월 기준, 공식을 보수적인 추정값으로 사용하십시오. GPU 구매 시 컨텍스트 오버헤드, 배칭, 시스템 프로세스를 고려하여 항상 25% 안전 마진을 추가하십시오.

VRAM 공식 정확도 ±10%: 양자화 형식(GGUF vs GPTQ vs AWQ), 모델 아키텍처(Transformer vs MoE), 추론 엔진(vLLM vs llama.cpp vs Ollama)에 따른 차이.

VRAM 계산에서 흔히 저지르는 실수

컨텍스트 오버헤드를 잊어버리는 것. 7B 모델 Q4는 3.5 GB이지만, 4k 컨텍스트가 추가되면 총 5~6 GB가 필요합니다.
양자화를 고려하지 않고 HuggingFace에서 모델 크기를 사용하는 것. 70B는 700억 파라미터를 의미하며 70 GB VRAM이 아닙니다.
시스템 오버헤드를 고려하지 않는 것. 모델이 GPU VRAM을 100% 사용하지는 않습니다. OS와 추론 엔진을 위해 1~2 GB를 확보하십시오.
계산된 크기와 딱 맞는 GPU를 구매하는 것. 항상 25% 이상 여유 있는 GPU를 구매하십시오. 계산 결과가 18 GB라면 24 GB GPU를 선택하십시오.

4가지 흔한 VRAM 실수: 컨텍스트 오버헤드 간과(1.5~3 GB 추가), 70B 파라미터를 70 GB VRAM으로 혼동, 시스템 오버헤드 1~2 GB 무시, 계산된 크기 그대로의 GPU 구매(25% 마진 없음).

지역별 배포 시 고려 사항

유럽 연합 (GDPR): 로컬 추론(온프레미스)은 GDPR에 따른 데이터 거주 요건을 보장합니다. 자체 GPU에서 모델을 실행하면 사용자 데이터가 국내에 유지됩니다. 이 VRAM 계산기는 프라이버시 우선 배포를 위한 하드웨어 크기 산정에 도움을 드립니다.

일본 (APPI): 개인정보 보호에 관한 법률(APPI)은 신중한 데이터 처리를 요구합니다. 디바이스 내 LLM 추론은 일본 외부로의 데이터 전송 및 처리를 줄입니다. 이 계산기를 사용하여 일본 기업 배포 시스템의 크기를 산정하십시오.

중국 (데이터보안법): 중국의 2021년 데이터보안법은 중국 내 데이터 거주를 의무화합니다. 국내 서버(알리바바 클라우드, 텐센트 클라우드)에서의 로컬 LLM 추론은 법규를 준수합니다. 이 공식은 Qwen3 같은 중국 최적화 모델을 사용하는 배포 크기 산정에도 적용됩니다.

모든 지역에서 로컬 추론은 클라우드 API보다 강력한 데이터 프라이버시를 보장합니다. 이 VRAM 계산기는 규정 준수 및 프라이버시 보호 AI 시스템 설계에 필수적입니다.

FAQ: VRAM 및 GPU 요구 사항

이 공식은 모든 모델 유형에 적용됩니까?

예. (모델 파라미터 수(B) × 양자화 비트) ÷ 8 공식은 모든 Transformer 기반 모델(Llama, Qwen, Mistral, Claude 등)에 적용됩니다. 비-Transformer 아키텍처(RNN 등)는 드물며 조정이 필요할 수 있습니다.

어떤 양자화 수준을 사용해야 합니까?

대부분의 용도에서: Q5가 최적의 균형을 제공합니다(품질 95%, 크기 68% 감소). 소비자용 GPU: Q4가 표준입니다(품질 90~95%, 75% 감소). 프로덕션용: VRAM이 허용한다면 Q8(품질 99%). 다른 선택이 없는 경우를 제외하고 Q3 이하는 피하십시오.

시스템 RAM은 얼마나 필요합니까?

오프로딩을 위해 최소 16 GB가 필요합니다. VRAM 오프로딩(CPU 유출)을 사용하는 경우 시스템 RAM이 대체 저장소가 됩니다. 배치 처리의 경우 모델 오프로드 요구 사항 외에 8~16 GB의 시스템 RAM을 추가하십시오. 단일 사용자 채팅의 경우 16 GB로 충분합니다.

배치 크기가 VRAM 계산에 영향을 줍니까?

예. 공식은 단일 요청에 대한 VRAM을 계산합니다. 배치 크기는 VRAM을 선형으로 증가시킵니다: 동시 요청이 추가될 때마다 컨텍스트 길이에 따라 약 500 MB~2 GB가 추가됩니다. batch=4로 실행하는 경우 계산된 양에 2~8 GB를 추가하십시오.

12 GB GPU에서 70B 모델을 실행할 수 있습니까?

극단적 양자화(Q2, 품질 손실 ~70%)와 CPU 오프로딩(매우 느림, 1~3 tokens/sec)을 사용해야만 가능합니다. 실용적이지 않습니다. 더 나은 옵션: 13B 모델 Q4(동일한 VRAM, 훨씬 빠르고 품질도 우수)를 사용하십시오.

실제 VRAM 사용량이 계산된 값보다 낮으면 어떻게 됩니까?

공식은 보수적이며 오버헤드를 포함합니다. 실제 사용량이 낮다는 것은 배치 처리, 긴 컨텍스트, 또는 안전 마진을 위한 여유 공간이 더 있다는 의미입니다. nvidia-smi를 사용하여 실제 사용량을 측정한 다음 모델을 벤치마크하여 성능을 확인하십시오.

출처

GGUF 명세 -- ggerganov/ggml의 양자화 파일 형식 문서.
Transformers 양자화 문서 -- Hugging Face 공식 양자화 방법 가이드.
Ollama 문서 -- 모델 관리를 위한 공식 Ollama 가이드.
vLLM 성능 가이드 -- vLLM 프레임워크 최적화 문서.
VRAM이 모델 크기를 제한하지만, 모델 크기만이 출력 품질의 유일한 제한 요소는 아닙니다. 더 큰 컨텍스트 윈도우는 더 나은 응답을 가능하게 합니다: 컨텍스트 윈도우 설명에서 제한 안에서 작동하는 방법을 확인하십시오.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider’s official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

VRAM 계산기 2026: 7B/13B/70B LLM GPU 요구 사항 (Q4, Q5, Q8)

Slide Deck: VRAM 계산기 2026: 7B/13B/70B LLM GPU 요구 사항 (Q4, Q5, Q8)

빠른 사실: GPU별 VRAM 요구 사항

한 문장 요약

쉬운 설명

VRAM 공식이란 무엇입니까?

인터랙티브 VRAM 계산기

Compatible GPUs

양자화 수준이란 무엇입니까?

빠른 참조 표: 모델 및 양자화별 VRAM

실제 사례

숨겨진 VRAM 오버헤드를 어떻게 고려해야 합니까?

내 GPU에 맞는 로컬 LLM은? 2026 가이드

공식은 얼마나 정확합니까?

VRAM 계산에서 흔히 저지르는 실수

지역별 배포 시 고려 사항

FAQ: VRAM 및 GPU 요구 사항

이 공식은 모든 모델 유형에 적용됩니까?

어떤 양자화 수준을 사용해야 합니까?

시스템 RAM은 얼마나 필요합니까?

배치 크기가 VRAM 계산에 영향을 줍니까?

12 GB GPU에서 70B 모델을 실행할 수 있습니까?

실제 VRAM 사용량이 계산된 값보다 낮으면 어떻게 됩니까?

관련 읽기

출처

A Note on Third-Party Facts