DeepSeek-R1 Distill VRAM 치트시트 (2026)

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

이 페이지에는 타사 제품에 대한 참조 링크가 포함되어 있습니다. PromptQuorum은 어떤 제휴 프로그램에도 등록되어 있지 않습니다 — 이는 수수료가 발생하지 않는 일반 링크입니다. 링크 클릭 및 이후 단계는 전적으로 귀하의 책임입니다. 이 링크는 PromptQuorum의 어떠한 보증이나 검증을 나타내지 않습니다.

빠른 답변

Q4_K_M(Ollama 기본값) 기준: 1.5B ≈ 4 GB, 7B ≈ 5.5 GB, 8B ≈ 6 GB, 14B ≈ 9.5 GB, 32B ≈ 20.5 GB, 70B ≈ 42 GB입니다. Q8_0은 Q4_K_M 크기의 약 2배, FP16은 약 4배이므로 FP16의 32B에는 64 GB급 구성이 필요합니다.

▸1.5B: 파일 ~1.1 GB, Q4_K_M에서 ~4 GB VRAM(또는 CPU)
▸7B: 파일 ~4.7 GB, ~5.5 GB VRAM — RTX 3060 12GB
▸14B: 파일 ~9 GB, ~9.5 GB VRAM — RTX 4060 Ti 16GB
▸32B: 파일 ~19 GB, ~20.5 GB VRAM — RTX 4090 24GB(빠듯함)
▸70B: 파일 ~40 GB, ~42 GB VRAM — 듀얼 GPU 또는 48 GB
▸규칙: Q8_0 ≈ 2× Q4_K_M; FP16 ≈ 4× Q4_K_M

업데이트: 2026-06-19

Quantization & VRAM기초 이해

핵심 요점

✓Q4_K_M(Ollama 기본값) VRAM: 1.5B ~4 GB, 7B ~5.5 GB, 8B ~6 GB, 14B ~9.5 GB, 32B ~20.5 GB, 70B ~42 GB.
✓Q8_0은 Q4_K_M 크기의 약 2배, FP16은 Q4_K_M 파일 크기의 약 4배입니다.
✓Q4_K_M의 14B(~9.5 GB)가 최적점입니다 — 컨텍스트 여유를 두고 16 GB 카드에 들어갑니다.
✓Q4_K_M의 32B(~20.5 GB)는 24 GB RTX 4090에서 빠듯합니다. 더 긴 컨텍스트가 필요하면 더 작은 양자화로 낮추십시오.
✓전체 671B DeepSeek-R1은 이 표에 없습니다 — Q4에서 ~376–404 GB가 필요하며 데이터센터 전용입니다.
✓이들은 R1 추론 distill이며, DeepSeek-V3(채팅 모델)이 아닙니다.

양자화별 DeepSeek-R1 Distill VRAM

VRAM 수치에는 원본 파일 크기 외에 컨텍스트와 KV 캐시를 위한 약간의 여유가 포함됩니다. Q4_K_M은 Ollama 기본값이며 추론에서 크기 대 품질의 균형이 가장 좋습니다. VRAM이 남고 미미한 품질 향상을 원할 때만 Q8_0을 사용하십시오. FP16은 로컬에서 가치가 있는 경우가 드뭅니다.

Distill	Q4_K_M (VRAM)	Q8_0 (VRAM)	FP16 (VRAM)	최소 GPU (Q4_K_M)
1.5B	~4 GB	~5 GB	~6 GB	4 GB GPU 아무거나 / CPU
7B (Qwen2.5)	~5.5 GB	~9.5 GB	~16 GB	RTX 3060 12GB
8B (Llama 3)	~6 GB	~10 GB	~17 GB	RTX 3060 12GB
14B (Qwen2.5)	~9.5 GB	~16 GB	~29 GB	RTX 4060 Ti 16GB
32B (Qwen2.5)	~20.5 GB	~35 GB	~64 GB	RTX 4090 24GB(빠듯함)
70B (Llama 3)	~42 GB	~74 GB	~140 GB	듀얼 GPU / 48 GB

Amazon에서 RTX 3060 12GB (제품 링크 · 공개됨)제품 링크 · 공개됨Amazon에서 RTX 4060 Ti 16GB (제품 링크 · 공개됨)제품 링크 · 공개됨Amazon에서 RTX 4090 24GB (제품 링크 · 공개됨)제품 링크 · 공개됨

어떤 양자화를 선택해야 합니까?

**거의 모든 경우에 Q4_K_M을 사용하십시오** — Ollama 기본값이며 GB당 가장 많은 모델을 담으면서도 추론 품질을 높게 유지합니다. 특별한 이유가 없다면 이것을 선택하십시오.

**Q8_0은 VRAM이 남을 때만 사용하십시오** — 사용량을 약 2배로 늘리는 대신 추론 답변을 거의 바꾸지 않는 미미한 품질 향상만 제공합니다. 24 GB 카드에서 14B를 구동할 때는 가치가 있지만 그 외에는 거의 없습니다.

**로컬에서는 FP16을 건너뛰십시오** — Q4_K_M 크기의 약 4배로, 32B를 64 GB급 하드웨어로 밀어 올리지만 Q8_0 대비 실질적인 추론 이점은 없습니다.

V3 vs R1: 혼동하지 마십시오

**DeepSeek-V3은 채팅 모델이고, DeepSeek-R1(및 이 distill들)은 추론 모델입니다.** 이 표는 R1 추론 계열 전용입니다. V3을 찾고 있다면, 그것은 671B MoE 채팅 모델로 역시 소비자용 하드웨어에서 구동할 수 없습니다 — [DeepSeek V3 하드웨어 요약](/prompt-bites/deepseek-v3-local-hardware-requirements)을 참고하십시오.

자주 묻는 질문

DeepSeek-R1-Distill-Qwen-32B의 VRAM은 얼마입니까?▾

Q4_K_M에서 약 20.5 GB로, 24 GB RTX 4090에 들어가지만 긴 컨텍스트를 위한 여유는 거의 없습니다. Q8_0에서는 ~35 GB, FP16에서는 ~64 GB가 필요합니다.

Q8_0은 Q4_K_M보다 얼마나 더 필요합니까?▾

약 2배의 VRAM입니다. 대부분의 추론 작업에서 품질 향상은 미미하므로, VRAM이 남지 않는 한 Q4_K_M이 더 나은 기본값입니다.

70B distill을 GPU 한 개로 구동할 수 있습니까?▾

아니요. ~42 GB(Q4_K_M)로 단일 소비자용 카드를 모두 초과합니다. 24 GB GPU 두 개 또는 48 GB 워크스테이션 카드를 사용하십시오.

전체 DeepSeek-R1이 이 표에 있습니까?▾

아니요. 전체 671B R1은 Q4에서 ~376–404 GB가 필요하며 데이터센터 전용입니다. 이 치트시트는 소비자용 하드웨어에서 구동 가능한 distill(1.5B–70B)을 다룹니다.

전체 설명이 필요하십니까?

전체 가이드 읽기 →

DeepSeek-R1 Distill VRAM 치트시트 (2026)

양자화별 DeepSeek-R1 Distill VRAM

어떤 양자화를 선택해야 합니까?

V3 vs R1: 혼동하지 마십시오

관련 가이드

자주 묻는 질문