Skip to main content
PromptQuorumPromptQuorum

GPU별 최적 DeepSeek 디스틸 모델 (2026)

이 페이지에는 타사 제품에 대한 참조 링크가 포함되어 있습니다. PromptQuorum은 어떤 제휴 프로그램에도 등록되어 있지 않습니다 — 이는 수수료가 발생하지 않는 일반 링크입니다. 링크 클릭 및 이후 단계는 전적으로 귀하의 책임입니다. 이 링크는 PromptQuorum의 어떠한 보증이나 검증을 나타내지 않습니다.

빠른 답변

카드를 확인하십시오: RTX 3060 12GB → 7B, RTX 4060 Ti 16GB → 14B, RTX 4070/4080 → 14B 또는 32B, RTX 4090 → 32B, 듀얼 GPU/48 GB → 70B. 8 GB에서 최적의 소형 모델은 DeepSeek-R1-0528-Qwen3-8B입니다. 각 모델은 Q4_K_M으로 하나의 Ollama 명령어로 실행됩니다.

  • RTX 3060 12GB → deepseek-r1:7b — 약 30–40 tok/s
  • RTX 4060 Ti 16GB → deepseek-r1:14b — 약 25–35 tok/s (권장)
  • RTX 4070 / 4080 → deepseek-r1:14b 또는 :32b — 14B 약 40–50, 32B 약 15–20 tok/s
  • RTX 4090 24GB → deepseek-r1:32b — 약 30–40 tok/s, o1-mini를 능가
  • 듀얼 GPU / 48 GB → deepseek-r1:70b — 약 12–18 tok/s
  • 8 GB 카드, 최적 소형 → DeepSeek-R1-0528-Qwen3-8B

업데이트: 2026-06-19

Quantization & VRAM기초 이해

핵심 요점

  • RTX 3060 12GB → 7B 디스틸; RTX 4060 Ti 16GB → 14B(최적 지점); RTX 4090 → 32B(o1-mini를 능가).
  • 듀얼 GPU 또는 48 GB → 70B 디스틸, 여섯 개 중 가장 강력합니다.
  • 8 GB에서 최적의 소형 모델은 DeepSeek-R1-0528-Qwen3-8B입니다.
  • 모든 모델은 하나의 명령어로 Q4_K_M으로 설치됩니다. 예: `ollama run deepseek-r1:14b`.
  • R1의 반복 오류를 피하려면 temperature를 0.6으로 설정하고 system prompt를 사용하지 마십시오.
  • 이것은 R1 추론 계열이며, 채팅 모델인 DeepSeek-V3가 아닙니다.

GPU → DeepSeek-R1 디스틸 → Ollama 명령어

첫 번째 열에서 보유한 GPU를 찾아 가로로 읽으십시오. tok/s 수치는 Q4_K_M 추론 워크로드에 대한 근삿값이며 컨텍스트 길이와 샘플링 설정에 따라 달라집니다. 두 모델이 모두 들어갈 때 더 큰 모델이 추론이 더 좋고 더 작은 모델이 더 빠릅니다.

GPU (VRAM)최적 디스틸Ollama 명령어예상 tok/s
RTX 3060 12GB (8 GB 등급)DeepSeek-R1-Distill-Qwen-7Bollama run deepseek-r1:7b~30–40
8 GB, 최적 소형DeepSeek-R1-0528-Qwen3-8Bollama run deepseek-r1-0528-qwen3:8b~30–40
RTX 4060 Ti 16GBDeepSeek-R1-Distill-Qwen-14Bollama run deepseek-r1:14b~25–35
RTX 4070 / 408014B (빠름) 또는 32B (16 GB 이상)ollama run deepseek-r1:14b14B ~40–50
RTX 4090 24GBDeepSeek-R1-Distill-Qwen-32Bollama run deepseek-r1:32b~30–40
듀얼 GPU / 48 GBDeepSeek-R1-Distill-Llama-70Bollama run deepseek-r1:70b~12–18

이 표를 3단계로 사용하는 방법

세 줄: (1) GPU와 VRAM을 확인하고, (2) 해당하는 Ollama 명령어를 실행하고, (3) temperature를 0.6으로 설정하고 system prompt를 비우십시오. 모델이 너무 느리면 한 단계 내리고, VRAM이 남으면 더 나은 추론을 위해 한 단계 올리십시오.

V3 대 R1: 이 표는 R1 전용입니다

**DeepSeek-R1은 이 명령어가 설치하는 추론 계열이며, DeepSeek-V3는 별도의 채팅 모델입니다.** 이 디스틸에서 V3 경험을 기대하지 마십시오 — 이들은 수학과 논리에 대한 단계별 추론을 보여주도록 조정되어 있습니다. 또한 V3는 671B MoE이며 소비자 하드웨어에서 실행할 수 없습니다. [DeepSeek V3 하드웨어 바이트](/prompt-bites/deepseek-v3-local-hardware-requirements)를 참조하십시오.

관련 가이드

자주 묻는 질문

RTX 4090에서는 어떤 DeepSeek 디스틸이 실행됩니까?
DeepSeek-R1-Distill-Qwen-32B입니다. Q4_K_M에서 약 20.5 GB가 필요하며 24 GB RTX 4090에 들어가고(컨텍스트는 빠듯함) 여러 추론 벤치마크에서 OpenAI o1-mini를 능가합니다. 명령어: `ollama run deepseek-r1:32b`.
8 GB GPU에 가장 좋은 DeepSeek 디스틸은 무엇입니까?
DeepSeek-R1-0528-Qwen3-8B가 가장 강력한 소형 추론 디스틸이며 8 GB에 들어갑니다. 원래 7B 디스틸(`ollama run deepseek-r1:7b`)이 잘 지원되는 대안입니다.
제 디스틸이 왜 느립니까?
보통 VRAM 오버플로 때문입니다 — 모델이 들어가지 않으면 시스템 RAM으로 넘쳐 처리량이 급락합니다. 한 단계 내려(예: 32B → 14B) 모델이 VRAM에 완전히 들어가도록 하십시오.
양자화를 선택해야 합니까?
아니요. `ollama run deepseek-r1:` 명령어는 크기 대비 품질이 가장 좋은 Q4_K_M을 기본으로 사용합니다. Q8_0 또는 FP16 수치를 원하면 VRAM 치트시트를 참조하십시오.

전체 설명이 필요하십니까?

전체 가이드 읽기 →

관련 프롬프트 요점