Skip to main content
PromptQuorumPromptQuorum

DeepSeek-R1 Distill VRAM 치트시트 (2026)

이 페이지에는 타사 제품에 대한 참조 링크가 포함되어 있습니다. PromptQuorum은 어떤 제휴 프로그램에도 등록되어 있지 않습니다 — 이는 수수료가 발생하지 않는 일반 링크입니다. 링크 클릭 및 이후 단계는 전적으로 귀하의 책임입니다. 이 링크는 PromptQuorum의 어떠한 보증이나 검증을 나타내지 않습니다.

빠른 답변

Q4_K_M(Ollama 기본값) 기준: 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB입니다. Q8_0은 Q4_K_M 크기의 약 2배, FP16은 약 4배이므로 FP16의 32B에는 64 GB급 구성이 필요합니다.

  • 1.5B: 파일 ~1.1 GB, Q4_K_M에서 ~4 GB VRAM(또는 CPU)
  • 7B: 파일 ~4.7 GB, ~5.5 GB VRAM — RTX 3060 12GB
  • 14B: 파일 ~9 GB, ~9.5 GB VRAM — RTX 4060 Ti 16GB
  • 32B: 파일 ~19 GB, ~20.5 GB VRAM — RTX 4090 24GB(빠듯함)
  • 70B: 파일 ~40 GB, ~42 GB VRAM — 듀얼 GPU 또는 48 GB
  • 규칙: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M

업데이트: 2026-06-19

Quantization & VRAM기초 이해

핵심 요점

  • Q4_K_M(Ollama 기본값) VRAM: 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
  • Q8_0은 Q4_K_M 크기의 약 2배, FP16은 Q4_K_M 파일 크기의 약 4배입니다.
  • Q4_K_M의 14B(~9.5 GB)가 최적점입니다 — 컨텍스트 여유를 두고 16 GB 카드에 들어갑니다.
  • Q4_K_M의 32B(~20.5 GB)는 24 GB RTX 4090에서 빠듯합니다. 더 긴 컨텍스트가 필요하면 더 작은 양자화로 낮추십시오.
  • 전체 671B DeepSeek-R1은 이 표에 없습니다 — Q4에서 ~376–404 GB가 필요하며 데이터센터 전용입니다.
  • 이들은 R1 추론 distill이며, DeepSeek-V3(채팅 모델)이 아닙니다.

양자화별 DeepSeek-R1 Distill VRAM

VRAM 수치에는 원본 파일 크기 외에 컨텍스트와 KV 캐시를 위한 약간의 여유가 포함됩니다. Q4_K_M은 Ollama 기본값이며 추론에서 크기 대 품질의 균형이 가장 좋습니다. VRAM이 남고 미미한 품질 향상을 원할 때만 Q8_0을 사용하십시오. FP16은 로컬에서 가치가 있는 경우가 드뭅니다.

DistillQ4_K_M (VRAM)Q8_0 (VRAM)FP16 (VRAM)최소 GPU (Q4_K_M)
1.5B~4 GB~5 GB~6 GB4 GB GPU 아무거나 / CPU
7B (Qwen2.5)~5.5 GB~9.5 GB~16 GBRTX 3060 12GB
8B (Llama 3)~6 GB~10 GB~17 GBRTX 3060 12GB
14B (Qwen2.5)~9.5 GB~16 GB~29 GBRTX 4060 Ti 16GB
32B (Qwen2.5)~20.5 GB~35 GB~64 GBRTX 4090 24GB(빠듯함)
70B (Llama 3)~42 GB~74 GB~140 GB듀얼 GPU / 48 GB

어떤 양자화를 선택해야 합니까?

**거의 모든 경우에 Q4_K_M을 사용하십시오** — Ollama 기본값이며 GB당 가장 많은 모델을 담으면서도 추론 품질을 높게 유지합니다. 특별한 이유가 없다면 이것을 선택하십시오.

**Q8_0은 VRAM이 남을 때만 사용하십시오** — 사용량을 약 2배로 늘리는 대신 추론 답변을 거의 바꾸지 않는 미미한 품질 향상만 제공합니다. 24 GB 카드에서 14B를 구동할 때는 가치가 있지만 그 외에는 거의 없습니다.

**로컬에서는 FP16을 건너뛰십시오** — Q4_K_M 크기의 약 4배로, 32B를 64 GB급 하드웨어로 밀어 올리지만 Q8_0 대비 실질적인 추론 이점은 없습니다.

V3 vs R1: 혼동하지 마십시오

**DeepSeek-V3은 채팅 모델이고, DeepSeek-R1(및 이 distill들)은 추론 모델입니다.** 이 표는 R1 추론 계열 전용입니다. V3을 찾고 있다면, 그것은 671B MoE 채팅 모델로 역시 소비자용 하드웨어에서 구동할 수 없습니다 — [DeepSeek V3 하드웨어 요약](/prompt-bites/deepseek-v3-local-hardware-requirements)을 참고하십시오.

관련 가이드

자주 묻는 질문

DeepSeek-R1-Distill-Qwen-32B의 VRAM은 얼마입니까?
Q4_K_M에서 약 20.5 GB로, 24 GB RTX 4090에 들어가지만 긴 컨텍스트를 위한 여유는 거의 없습니다. Q8_0에서는 ~35 GB, FP16에서는 ~64 GB가 필요합니다.
Q8_0은 Q4_K_M보다 얼마나 더 필요합니까?
약 2배의 VRAM입니다. 대부분의 추론 작업에서 품질 향상은 미미하므로, VRAM이 남지 않는 한 Q4_K_M이 더 나은 기본값입니다.
70B distill을 GPU 한 개로 구동할 수 있습니까?
아니요. ~42 GB(Q4_K_M)로 단일 소비자용 카드를 모두 초과합니다. 24 GB GPU 두 개 또는 48 GB 워크스테이션 카드를 사용하십시오.
전체 DeepSeek-R1이 이 표에 있습니까?
아니요. 전체 671B R1은 Q4에서 ~376–404 GB가 필요하며 데이터센터 전용입니다. 이 치트시트는 소비자용 하드웨어에서 구동 가능한 distill(1.5B–70B)을 다룹니다.

전체 설명이 필요하십니까?

전체 가이드 읽기 →

관련 프롬프트 요점