DeepSeek-R1 Distill VRAM 치트시트 (2026)
이 페이지에는 타사 제품에 대한 참조 링크가 포함되어 있습니다. PromptQuorum은 어떤 제휴 프로그램에도 등록되어 있지 않습니다 — 이는 수수료가 발생하지 않는 일반 링크입니다. 링크 클릭 및 이후 단계는 전적으로 귀하의 책임입니다. 이 링크는 PromptQuorum의 어떠한 보증이나 검증을 나타내지 않습니다.
빠른 답변
Q4_K_M(Ollama 기본값) 기준: 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB입니다. Q8_0은 Q4_K_M 크기의 약 2배, FP16은 약 4배이므로 FP16의 32B에는 64 GB급 구성이 필요합니다.
- ▸1.5B: 파일 ~1.1 GB, Q4_K_M에서 ~4 GB VRAM(또는 CPU)
- ▸7B: 파일 ~4.7 GB, ~5.5 GB VRAM — RTX 3060 12GB
- ▸14B: 파일 ~9 GB, ~9.5 GB VRAM — RTX 4060 Ti 16GB
- ▸32B: 파일 ~19 GB, ~20.5 GB VRAM — RTX 4090 24GB(빠듯함)
- ▸70B: 파일 ~40 GB, ~42 GB VRAM — 듀얼 GPU 또는 48 GB
- ▸규칙: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M
업데이트: 2026-06-19
핵심 요점
- ✓Q4_K_M(Ollama 기본값) VRAM: 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
- ✓Q8_0은 Q4_K_M 크기의 약 2배, FP16은 Q4_K_M 파일 크기의 약 4배입니다.
- ✓Q4_K_M의 14B(~9.5 GB)가 최적점입니다 — 컨텍스트 여유를 두고 16 GB 카드에 들어갑니다.
- ✓Q4_K_M의 32B(~20.5 GB)는 24 GB RTX 4090에서 빠듯합니다. 더 긴 컨텍스트가 필요하면 더 작은 양자화로 낮추십시오.
- ✓전체 671B DeepSeek-R1은 이 표에 없습니다 — Q4에서 ~376–404 GB가 필요하며 데이터센터 전용입니다.
- ✓이들은 R1 추론 distill이며, DeepSeek-V3(채팅 모델)이 아닙니다.
양자화별 DeepSeek-R1 Distill VRAM
VRAM 수치에는 원본 파일 크기 외에 컨텍스트와 KV 캐시를 위한 약간의 여유가 포함됩니다. Q4_K_M은 Ollama 기본값이며 추론에서 크기 대 품질의 균형이 가장 좋습니다. VRAM이 남고 미미한 품질 향상을 원할 때만 Q8_0을 사용하십시오. FP16은 로컬에서 가치가 있는 경우가 드뭅니다.
| Distill | Q4_K_M (VRAM) | Q8_0 (VRAM) | FP16 (VRAM) | 최소 GPU (Q4_K_M) |
|---|---|---|---|---|
| 1.5B | ~4 GB | ~5 GB | ~6 GB | 4 GB GPU 아무거나 / CPU |
| 7B (Qwen2.5) | ~5.5 GB | ~9.5 GB | ~16 GB | RTX 3060 12GB |
| 8B (Llama 3) | ~6 GB | ~10 GB | ~17 GB | RTX 3060 12GB |
| 14B (Qwen2.5) | ~9.5 GB | ~16 GB | ~29 GB | RTX 4060 Ti 16GB |
| 32B (Qwen2.5) | ~20.5 GB | ~35 GB | ~64 GB | RTX 4090 24GB(빠듯함) |
| 70B (Llama 3) | ~42 GB | ~74 GB | ~140 GB | 듀얼 GPU / 48 GB |
어떤 양자화를 선택해야 합니까?
**거의 모든 경우에 Q4_K_M을 사용하십시오** — Ollama 기본값이며 GB당 가장 많은 모델을 담으면서도 추론 품질을 높게 유지합니다. 특별한 이유가 없다면 이것을 선택하십시오.
**Q8_0은 VRAM이 남을 때만 사용하십시오** — 사용량을 약 2배로 늘리는 대신 추론 답변을 거의 바꾸지 않는 미미한 품질 향상만 제공합니다. 24 GB 카드에서 14B를 구동할 때는 가치가 있지만 그 외에는 거의 없습니다.
**로컬에서는 FP16을 건너뛰십시오** — Q4_K_M 크기의 약 4배로, 32B를 64 GB급 하드웨어로 밀어 올리지만 Q8_0 대비 실질적인 추론 이점은 없습니다.
V3 vs R1: 혼동하지 마십시오
**DeepSeek-V3은 채팅 모델이고, DeepSeek-R1(및 이 distill들)은 추론 모델입니다.** 이 표는 R1 추론 계열 전용입니다. V3을 찾고 있다면, 그것은 671B MoE 채팅 모델로 역시 소비자용 하드웨어에서 구동할 수 없습니다 — [DeepSeek V3 하드웨어 요약](/prompt-bites/deepseek-v3-local-hardware-requirements)을 참고하십시오.
관련 가이드
- ▸당신의 GPU에 가장 적합한 DeepSeek Distill — 카드를 distill에 맞추고, Ollama 명령어와 예상 tok/s까지 제공
- ▸2026 최고의 로컬 추론 모델: DeepSeek-R1 순위 — 벤치마크가 포함된 전체 순위 가이드
- ▸DeepSeek V3 로컬 하드웨어 요구 사항 — V3 채팅 모델 버전
자주 묻는 질문
DeepSeek-R1-Distill-Qwen-32B의 VRAM은 얼마입니까?▾
Q8_0은 Q4_K_M보다 얼마나 더 필요합니까?▾
70B distill을 GPU 한 개로 구동할 수 있습니까?▾
전체 DeepSeek-R1이 이 표에 있습니까?▾
전체 설명이 필요하십니까?
전체 가이드 읽기 →관련 프롬프트 요점