Strix Halo (Ryzen AI Max) + Ollama Vulkan: 설정 및 성능
이 페이지에는 타사 제품에 대한 참조 링크가 포함되어 있습니다. PromptQuorum은 어떤 제휴 프로그램에도 등록되어 있지 않습니다 — 이는 수수료가 발생하지 않는 일반 링크입니다. 링크 클릭 및 이후 단계는 전적으로 귀하의 책임입니다. 이 링크는 PromptQuorum의 어떠한 보증이나 검증을 나타내지 않습니다.
빠른 답변
예 — Ryzen AI Max (Strix Halo, RDNA 3.5)는 Linux에서 Vulkan을 통해 Ollama를 실행합니다. MAX 395의 96 GB 통합 메모리로 Qwen 32B와 Llama 70B Q4_K_M도 로드할 수 있습니다. 이는 단일 데스크톱 GPU로는 불가능한 모델입니다.
- ▸Linux: Ollama가 Strix Halo Vulkan을 자동으로 감지합니다. 긴 컨텍스트 세션에는 OLLAMA_FLASH_ATTENTION=1을 설정하십시오.
- ▸Ryzen AI Max 395 (96 GB): Llama 70B Q4_K_M (~41 GB)과 Qwen 32B Q4_K_M (~19 GB)을 동시에 메모리에 로드 가능합니다.
- ▸Windows Strix Halo Vulkan 경로는 실험적입니다. GPU 가속 Ollama의 안정적인 플랫폼은 Linux입니다.
업데이트: 2026-05
핵심 요점
- ✓Ryzen AI Max 395 (Strix Halo, 40 CU RDNA 3.5, 96 GB LPDDR5X)는 Linux의 Ollama에서 Vulkan 백엔드를 사용합니다. ROCm iGPU 지원이 없을 때 올바른 GPU 경로입니다.
- ✓96 GB 통합 메모리 풀이 핵심 강점입니다: Llama 70B Q4_K_M (~41 GB)을 로드할 수 있습니다. 다른 설정에서는 여러 데스크톱 GPU가 필요한 모델입니다.
- ✓Ryzen AI Max 395 속도: Llama 3.3 8B ~22 tok/s, Qwen 3 14B ~13 tok/s, Qwen 3 32B ~7 tok/s (Vulkan 기준)
- ✓2026년 중반 기준 Ollama에서 Strix Halo의 Windows 지원은 성숙 중입니다. Linux via Vulkan이 안정적인 경로입니다.
Strix Halo에서 Vulkan으로 Ollama 실행하는 방법
Linux에서 표준 Ollama 바이너리를 설치하면 충분합니다. RDNA 3.5 (gfx1150)를 기본 지원하는 Vulkan 백엔드와 함께 llama.cpp를 사용합니다. Vulkan 경로에는 추가 ROCm 설치가 필요하지 않습니다. 평소처럼 `curl -fsSL https://ollama.com/install.sh | sh`를 실행하십시오.
설치 후, 긴 세션에서 메모리 효율을 높이기 위해 flash attention 플래그를 설정하십시오: `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. 이렇게 하면 KV-cache 메모리 사용량이 줄어들며, 96 GB 풀 전체에 근접하는 32B 이상 모델을 실행할 때 특히 중요합니다.
Ollama가 GPU(CPU가 아닌)를 사용하는지 확인하려면 모델이 활성화된 상태에서 `ollama ps`를 실행하십시오. 출력에서 PROCESSOR 열에 "GPU"가 표시되고 VRAM 값이 0이 아니어야 합니다. "CPU"가 표시되면 Vulkan 백엔드가 초기화되지 않은 것입니다. Linux 배포판에 `vulkan-icd-loader` 패키지가 설치되어 있는지 확인하십시오.
| 모델 | Q4_K_M VRAM | 속도 (MAX 395 Vulkan) | 96 GB 적합 여부 |
|---|---|---|---|
| Llama 3.3 8B | 4.9 GB | ~22 tok/s | ✓ |
| Qwen 3 14B | 9.3 GB | ~13 tok/s | ✓ |
| Qwen 3 32B | 19.4 GB | ~7 tok/s | ✓ |
| Llama 3.3 70B | ~41 GB | ~3 tok/s | ✓ |
| Qwen 3 72B | ~43 GB | ~3 tok/s | ✓ |
Strix Halo vs RTX 4090: 메모리가 이기고 속도는 진다
Ryzen AI Max 395는 GPU 속도를 메모리 용량과 교환합니다. RTX 4090은 Llama 3.3 8B를 ~45 tok/s로 실행하는 반면 Strix Halo Vulkan은 ~22 tok/s입니다. 7B 및 14B 모델에서는 RTX 4090이 더 빠릅니다. 그러나 RTX 4090은 24 GB VRAM으로 제한되지만 Strix Halo MAX 395는 96 GB를 갖추고 있어 단일 데스크톱 GPU로는 불가능한 모델 크기를 실현합니다.
Strix Halo의 실용적인 사용 사례는 클라우드 API 없이 로컬에서 32B–70B 모델을 실행하는 것입니다. Q4_K_M의 Qwen 3 32B (~19 GB)는 ~7 tok/s로 실행됩니다. 대화형 채팅에는 느리지만 일괄 요약, 문서 처리 또는 야간 파인튜닝 작업에는 유효합니다. Q4_K_M의 Llama 3.3 70B (~41 GB)는 ~3 tok/s로 도달 가능하며 고품질 단일 쿼리에 적합합니다.
Windows에서 Ollama는 2026년 중반 기준 Strix Halo에서 기본적으로 CPU 추론으로 돌아갑니다. Windows 공식 Ollama 버전에서 gfx1150에 대한 ROCm iGPU 지원이 아직 완료되지 않았기 때문입니다. Vulkan 경로는 `-DGGML_VULKAN=ON`으로 소스에서 llama.cpp를 직접 컴파일해야 합니다. Windows ROCm 경로가 성숙할 때까지는 GPU 가속 Strix Halo 추론에 Linux를 권장합니다.
Apple Silicon APU 하드웨어와의 비교는 Mac Mini M4 로컬 LLM 바이트를 참조하십시오. macOS의 대체 통합 메모리 접근 방식을 다룹니다.
관련 읽기
- ▸Mac Mini M4 로컬 LLM — Strix Halo의 Apple 통합 메모리 대안
- ▸로컬 LLM을 위한 최고의 미니 PC — AMD와 Apple 옵션을 포함한 미니 PC 비교
- ▸로컬 LLM을 위한 최고의 저가 GPU — 데스크톱 Linux 빌드를 위한 별도 GPU 옵션