Key Takeaways
- 671B 풀 DeepSeek-R1은 집에서 실행할 수 없습니다 — Q4에서 약 376–404 GB의 VRAM이 필요합니다(데이터센터 전용). 그 증류 모델 중 하나를 실행하게 됩니다.
- 공식 증류 모델은 6개입니다: 1.5B, 7B, 14B, 32B(Qwen2.5 기반)과 8B, 70B(Llama 3 기반).
- 최적점: 16 GB GPU의 DeepSeek-R1-Distill-Qwen-14B — Q4_K_M에서 약 9 GB, 강력한 다단계 수학.
- 최고의 단일 GPU 추론 모델: 32B 증류 모델은 여러 추론 벤치마크에서 OpenAI o1-mini를 능가하지만 24 GB에서는 빠듯합니다.
- 최고의 소형 모델: DeepSeek-R1-0528-Qwen3-8B는 AIME 2024에서 오픈 8B 모델 중 선두이며 8 GB 카드에 들어맞습니다.
- 모든 증류 모델은 명령어 하나로 설치됩니다. 예: `ollama run deepseek-r1:14b`(기본 Q4_K_M).
- 온도를 0.6으로 설정하고 시스템 프롬프트를 사용하지 마십시오 — 모든 지시를 사용자 프롬프트에 넣어 R1 반복 오류를 방지하십시오.
- 이 페이지는 추론(수학, 논리, 다단계)만 순위화합니다. 코딩은 DeepSeek vs Qwen 코딩 가이드를 참고하십시오.
로컬 추론 모델이란 무엇입니까?
추론 모델은 최종 답변 전에 명시적인 사고의 연쇄(chain-of-thought)를 생성하도록 학습된 LLM으로, 같은 크기의 표준 채팅 모델보다 수학, 논리, 다단계 문제에서 훨씬 강력합니다. DeepSeek-R1 증류 모델은 추론 모델입니다: 응답 안에서 "소리 내어 생각"하며, 답을 확정하기 전에 단계를 점검하고 수정합니다.
대가는 지연 시간과 장황함입니다. 추론 모델은 문제를 풀어 나가는 데 추가 token을 소비하므로, 답변 하나에 수 초와 수백 개의 가시적 추론 token이 걸릴 수 있습니다. 수학 증명이나 논리 퍼즐에는 바로 그것이 필요하지만, 빠른 사실 조회에는 시간 낭비입니다.
사람들이 혼동하는 구분: DeepSeek-V3는 채팅 모델이고, DeepSeek-R1은 추론 모델입니다. 아키텍처 계보는 공유하지만 서로 다른 작업에 맞춰 튜닝되어 있습니다. 대화형 답변을 원하면 V3를, 단계별 문제 해결을 원하면 R1 또는 그 증류 모델 중 하나를 사용하십시오. 증류가 무엇을 유지하고 무엇을 잃는지는 DeepSeek-R1 대 증류 모델에서 정확히 설명합니다.
이 모델들을 실행하는 더 깊은 입문을 위해서는 로컬 LLM 하드웨어 가이드 2026과 LLM 양자화 설명부터 시작하십시오. 이 가이드가 의존하는 VRAM 계산을 다룹니다.
로컬 추론 모델은 답하기 전에 명시적인 사고의 연쇄를 작성하는 LLM으로, 같은 크기의 채팅 모델보다 수학과 논리에서 더 강력합니다.
추론 모델을 풀이 과정을 보여 주는 학생이라고 생각하십시오. 더 느리고 더 많이 쓰지만, 답을 불쑥 내뱉는 모델보다 다단계 문제를 훨씬 더 자주 맞힙니다.
6개 DeepSeek-R1 증류 모델 한눈에 보기
DeepSeek은 R1의 공식 증류 모델 6개를 출시했으며, 각각은 기존 오픈 베이스 모델을 671B 풀 R1의 추론 트레이스로 파인튜닝하여 만들어졌습니다. 4개는 Qwen2.5 기반(1.5B, 7B, 14B, 32B)이고 2개는 Llama 3 기반(8B, 70B)입니다. 아래 VRAM 수치는 Ollama 기본 Q4_K_M 양자화 기준입니다.
DeepSeek-R1에는 Qwen2.5와 Llama 3 기반으로 구축된 1.5B부터 70B까지 6개의 공식 증류 모델이 있으며, 14B 모델이 16 GB GPU에 가장 적합한 균형을 제공합니다.
| Distill | Base Model | File Size (Q4_K_M) | Min VRAM | Best For |
|---|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-1.5B | Qwen2.5 1.5B | ~1.1 GB | 4 GB / CPU | 엣지 기기, 빠른 테스트 |
| DeepSeek-R1-Distill-Qwen-7B | Qwen2.5 7B | ~4.7 GB | 8 GB | 엔트리 GPU, AIME 2024 55.5% |
| DeepSeek-R1-Distill-Llama-8B | Llama 3 8B | ~4.9 GB | 8 GB | Llama 라이선스 워크플로 |
| DeepSeek-R1-Distill-Qwen-14B | Qwen2.5 14B | ~9 GB | 16 GB | 전반적으로 최고의 균형 |
| DeepSeek-R1-Distill-Qwen-32B | Qwen2.5 32B | ~18–20 GB | 24 GB | o1-mini 능가, 최고의 단일 GPU |
| DeepSeek-R1-Distill-Llama-70B | Llama 3 70B | ~40 GB | Dual-GPU / 48 GB | 가장 강력한 증류 모델, 최대 정확도 |
DeepSeek-R1-Distill-Llama-8B는 Llama 3 라이선스와 MIT 라이선스를 모두 가집니다. Qwen 기반 증류 모델은 Qwen 라이선스를 상속합니다. 상업적 사용 전에는 항상 라이선스를 확인하십시오.
최고의 소형 추론 증류 모델: DeepSeek-R1-0528-Qwen3-8B
DeepSeek-R1-0528-Qwen3-8B는 8 GB GPU에서 실행할 수 있는 가장 강력한 소형 추론 모델로, 업데이트된 R1-0528을 Qwen3 8B 베이스로 증류한 것입니다. AIME 2024에서 오픈 8B 모델 중 선두이며, 해당 벤치마크에서 베이스 Qwen3 8B보다 약 10 퍼센트포인트 높은 점수를 기록합니다 — 이 크기에서 수학과 논리에 의미 있는 도약입니다.
최고의 소형 모델 정확도를 원하고 하드웨어가 8 GB로 제한될 때는 원본 7B 및 8B 증류 모델 대신 이것을 선택하십시오. 동일한 RTX 3060 12GB 등급에 맞고 Q4_K_M에서 약 5 GB로 실행됩니다. 속도보다 추론 품질을 중시하는 대부분의 노트북 및 엔트리 GPU 사용자에게 이것이 시작하기 좋은 모델입니다.
GPU에 8 GB가 있다면 더 새로운 R1-0528-Qwen3-8B가 가장 똑똑한 소형 추론 모델입니다 — 원본 증류 모델보다 나은 베이스를 사용하고 경시대회 수학에서 더 높은 점수를 기록합니다.
하드웨어 등급별로 순위를 매긴 DeepSeek-R1 증류 모델
VRAM이 지원하는 가장 높은 등급을 선택하십시오. 파라미터가 많을수록 추론이 좋아지지만, 모델이 시스템 RAM으로 넘치지 않고 들어맞을 때만 그렇습니다(넘치면 속도가 무너집니다). 이 순위를 사용해 보유하거나 구매하려는 GPU에 증류 모델을 맞추십시오.
DeepSeek-R1 증류 모델은 추론 벤치마크에서 어떤 점수를 기록합니까?
이것들은 추론 벤치마크입니다 — AIME 2024(경시 수학), MATH-500(혼합 수학), GPQA Diamond(대학원 수준 과학 Q&A). 코딩이 아니라 단계별 문제 해결을 측정합니다. 핵심 결과: 32B 증류 모델은 이들 중 여럿에서 OpenAI o1-mini를 능가하고, 7B 증류 모델은 AIME 2024에서 55.5%를 기록하는데, 이는 같은 크기의 어떤 채팅 모델도 도달하지 못하는 점수입니다.
DeepSeek-R1-Distill-Qwen-32B는 여러 추론 벤치마크에서 OpenAI o1-mini를 능가하며, 7B 증류 모델은 AIME 2024에서 55.5%를 기록합니다.
| Distill | AIME 2024 | Reasoning Tier | Notes |
|---|---|---|---|
| DeepSeek-R1-Distill-Qwen-7B | 55.5% | 7B치고 강력 | 최고의 엔트리 GPU 추론 모델 |
| DeepSeek-R1-0528-Qwen3-8B | 오픈 8B 선두 | 최고의 소형 | 베이스 Qwen3 8B 대비 약 +10점 |
| DeepSeek-R1-Distill-Qwen-14B | 7B보다 높음 | 최고의 균형 | 16 GB 최적점 |
| DeepSeek-R1-Distill-Qwen-32B | 단일 GPU 최고 | o1-mini 능가 | 최고의 24 GB 추론 모델 |
| DeepSeek-R1-Distill-Llama-70B | 6개 중 최고 | 최대 | 듀얼 GPU 필요 |
공개된 곳에서는 정확한 점수를(7B = AIME 2024 55.5%), 그 외에는 상대 순위를 사용하십시오. 벤치마크 수치는 양자화와 샘플링 설정에 따라 달라집니다; 절댓값이 아니라 등급 내 방향성 지표로 받아들이십시오.
추론 모델을 사용하지 말아야 할 때는 언제입니까?
작업이 추론 작업이 아닐 때는 추론 모델을 피하십시오 — 더 느리고 더 장황하며 단순 검색이나 채팅에서는 더 정확하지도 않습니다. 대신 DeepSeek-V3나 Llama 3.3 같은 표준 채팅 모델을 사용하십시오.
- 빠른 사실 조회에는 피하십시오 — 가시적인 사고의 연쇄는 채팅 모델이 즉시 반환하는 답에 token과 시간을 낭비합니다.
- 개방형 대화에는 피하십시오 — 추론 모델은 대화가 아니라 정답이 있는 문제에 맞춰 튜닝되어 있습니다.
- 순수 코딩 처리량에는 피하십시오 — 코드 생성은 DeepSeek vs Qwen 코딩 가이드로 가십시오; 이 페이지는 추론만 다룹니다.
- 지연 시간이 중요할 때는 피하십시오 — 1초 미만 응답이 필요하면 더 작은 채팅 모델이 낫습니다.
- 작업이 수학, 논리, 다단계 계획, 또는 풀이 과정을 보여 주는 것이 정확성을 높이는 무엇이든일 때 추론 모델을 사용하십시오.
설정 프로 팁: 온도 0.6과 시스템 프롬프트 없음
온도를 0.6으로 설정하고(0.5–0.7 범위가 안전합니다) 시스템 프롬프트를 사용하지 마십시오 — 모든 지시를 사용자 프롬프트에 넣으십시오. 이것이 DeepSeek-R1 증류 모델에 대한 가장 중요한 단일 설정입니다. 이 모델들은 시스템 프롬프트를 주거나 온도가 0에 가깝거나 약 0.8을 넘으면 반복 및 비일관성 오류 모드에 빠지기 쉽습니다.
실제로는: Ollama/LM Studio의 시스템 프롬프트 필드를 비워 두고, 지시를 사용자 메시지 앞에 붙이며, 온도를 0.6으로 유지하십시오. 모델이 추론 도중 반복하거나 흐트러지면 거의 항상 이 설정이 해결책입니다.
설정: 등급별 Ollama 빠른 시작
모든 증류 모델은 단일 Ollama 명령어로 설치되고 실행됩니다(모두 기본 Q4_K_M). 아직 설치하지 않았다면 Ollama를 먼저 설치하십시오 — Ollama 설치 방법을 참고하십시오. 그런 다음 등급에 맞는 명령어를 선택하십시오:
ollama run deepseek-r1:1.5b # edge / CPU
ollama run deepseek-r1:7b # 8 GB VRAM
ollama run deepseek-r1:8b # 8 GB VRAM (Llama base)
ollama run deepseek-r1:14b # 16 GB VRAM — recommended
ollama run deepseek-r1:32b # 24 GB VRAM — beats o1-mini
ollama run deepseek-r1:70b # dual-GPU / 48 GB결론: 어떤 DeepSeek-R1 증류 모델을 실행해야 합니까?
결정은 VRAM과 정확도 또는 속도 중 무엇을 우선하는지에 달려 있습니다. 각 경우에 대한 한 줄 답은 다음과 같습니다.
증류 모델을 선택하십시오
Use a local LLM if:
- •16 GB GPU → DeepSeek-R1-Distill-Qwen-14B (전반적으로 최고, 기본 선택)
- •24 GB GPU → DeepSeek-R1-Distill-Qwen-32B (o1-mini를 능가, 최고의 단일 GPU 추론 모델)
- •8 GB GPU → DeepSeek-R1-0528-Qwen3-8B (최고의 소형) 또는 7B 증류 모델
- •듀얼 GPU / 48 GB → DeepSeek-R1-Distill-Llama-70B (최대 정확도)
Use a cloud model if:
- •어떤 증류 모델도 넘어서는 프런티어 추론이 필요하다면 → PromptQuorum을 통해 GPT-4o / Claude / Gemini와 비교하십시오
- •GPU를 전용으로 둘 수 없다면 → 호스팅 추론 API가 하드웨어 구매보다 저렴할 수 있습니다
Quick decision:
- →확실하지 않다면 16 GB 카드의 14B로 시작하십시오.
- →항상 온도 0.6, 시스템 프롬프트 없이 실행하십시오.
- →코딩에는 추론 증류 모델이 아니라 코딩 모델을 사용하십시오.
자주 묻는 질문
671B 풀 DeepSeek-R1을 로컬에서 실행할 수 있습니까?
아니요. 풀 DeepSeek-R1은 671B 파라미터 Mixture-of-Experts 모델(token당 약 37B 활성)이며 Q4에서 약 376–404 GB의 VRAM이 필요합니다 — 데이터센터 하드웨어 전용입니다. 집에서는 그 증류 모델(1.5B~70B) 중 하나를 실행합니다. Unsloth 1.58-bit 빌드(약 131 GB)가 존재하지만 초당 약 0.3 token으로 실행되어 사용 가능한 구성이라기보다 호기심거리에 가깝습니다.
전반적으로 가장 좋은 DeepSeek-R1 증류 모델은 무엇입니까?
대부분의 사용자에게 16 GB GPU의 DeepSeek-R1-Distill-Qwen-14B가 추론 품질, 속도, VRAM 적합성의 최고 균형입니다. 24 GB 카드가 있다면 32B 증류 모델이 더 강력하며 여러 추론 벤치마크에서 OpenAI o1-mini를 능가합니다.
최고의 소형 DeepSeek 추론 모델은 무엇입니까?
DeepSeek-R1-0528-Qwen3-8B입니다. 업데이트된 R1-0528을 Qwen3 8B 베이스로 증류했으며, AIME 2024에서 오픈 8B 모델 중 선두이고 베이스 Qwen3 8B보다 약 10점 높습니다. Q4_K_M에서 8 GB GPU에 들어맞습니다.
각 증류 모델은 VRAM이 얼마나 필요합니까?
Ollama 기본 Q4_K_M 기준: 7B는 약 8 GB(파일 약 4.7 GB), 14B는 약 16 GB(약 9 GB 파일), 32B는 약 24 GB(약 18–20 GB 파일), 70B는 듀얼 GPU 또는 48 GB(약 40 GB 파일)가 필요합니다. FP16은 Q4_K_M 크기의 약 4배, Q8_0은 약 2배입니다.
DeepSeek-R1은 코딩에 좋습니까?
이 가이드는 추론(수학, 논리, 다단계)만 순위화합니다. 코드 생성은 트레이드오프가 다릅니다 — 코딩 처리량을 위해 추론 증류 모델을 고르기보다 /power-local-llm/deepseek-vs-qwen-coding-local-2026의 전용 비교를 참고하십시오.
DeepSeek-V3와 DeepSeek-R1의 차이는 무엇입니까?
DeepSeek-V3는 대화에 맞춰 튜닝된 채팅 모델이고, DeepSeek-R1은 답하기 전에 명시적인 사고의 연쇄를 생성하는 추론 모델입니다. 수학과 논리에는 R1 또는 증류 모델을, 일반 채팅에는 V3를 사용하십시오.
제 DeepSeek-R1 증류 모델이 반복하거나 횡설수설하는 이유는 무엇입니까?
거의 항상 설정 문제입니다. 온도를 0.6으로 설정하고(0.5–0.7이 괜찮습니다) 시스템 프롬프트를 제거하십시오 — 모든 지시를 사용자 메시지에 넣으십시오. R1 증류 모델은 시스템 프롬프트와 극단적 온도로 촉발되는 알려진 반복 오류 모드가 있습니다.
DeepSeek-R1 증류 모델은 어떻게 설치합니까?
Ollama를 설치한 다음 등급에 맞는 명령어 하나를 실행하십시오. 예: `ollama run deepseek-r1:14b`. 모든 증류 모델은 기본적으로 Q4_K_M입니다. 전체 명령어 목록은 위의 설정 섹션을 참고하십시오.
8B 증류 모델은 라이선스가 다릅니까?
네. DeepSeek-R1-Distill-Llama-8B는 베이스가 Llama 3이기 때문에 MIT에 더해 Llama 3 라이선스를 가집니다. Qwen 기반 증류 모델(1.5B, 7B, 14B, 32B)은 Qwen 라이선스를 상속합니다. 상업적 사용 전에 라이선스를 확인하십시오.
추론을 위해 RTX 4060 Ti 16GB를 사야 합니까, RTX 4090을 사야 합니까?
예산이 RTX 4090을 허용하고 32B 증류 모델(o1-mini를 능가)을 실행하고 싶다면 4090을 사십시오. 최고의 가성비를 원하고 14B 증류 모델이 필요를 충족한다면 약 $420의 RTX 4060 Ti 16GB가 더 현명한 구매입니다.
업데이트 로그
- 2026-06-19 게시. 다음 검토 예정일 2026-12-19(반기 신선도 등급).
- 6개의 공식 DeepSeek-R1 증류 모델과 DeepSeek-R1-0528-Qwen3-8B를 다룹니다. 2026년 6월 기준 공개된 AIME 2024 점수와 Q4_K_M VRAM 수치에 대해 검증되었습니다.