Strix Halo (Ryzen AI Max) + Ollama Vulkan: 설정 및 성능

언어 선택:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

이 페이지에는 타사 제품에 대한 참조 링크가 포함되어 있습니다. PromptQuorum은 어떤 제휴 프로그램에도 등록되어 있지 않습니다 — 이는 수수료가 발생하지 않는 일반 링크입니다. 링크 클릭 및 이후 단계는 전적으로 귀하의 책임입니다. 이 링크는 PromptQuorum의 어떠한 보증이나 검증을 나타내지 않습니다.

빠른 답변

예 — Ryzen AI Max (Strix Halo, RDNA 3.5)는 Linux에서 Vulkan을 통해 Ollama를 실행합니다. MAX 395의 96 GB 통합 메모리로 Qwen 32B와 Llama 70B Q4_K_M도 로드할 수 있습니다. 이는 단일 데스크톱 GPU로는 불가능한 모델입니다.

▸Linux: Ollama가 Strix Halo Vulkan을 자동으로 감지합니다. 긴 컨텍스트 세션에는 OLLAMA_FLASH_ATTENTION=1을 설정하십시오.
▸Ryzen AI Max 395 (96 GB): Llama 70B Q4_K_M (~41 GB)과 Qwen 32B Q4_K_M (~19 GB)을 동시에 메모리에 로드 가능합니다.
▸Windows Strix Halo Vulkan 경로는 실험적입니다. GPU 가속 Ollama의 안정적인 플랫폼은 Linux입니다.

업데이트: 2026-05

Hardware-Specific

핵심 요점

✓Ryzen AI Max 395 (Strix Halo, 40 CU RDNA 3.5, 96 GB LPDDR5X)는 Linux의 Ollama에서 Vulkan 백엔드를 사용합니다. ROCm iGPU 지원이 없을 때 올바른 GPU 경로입니다.
✓96 GB 통합 메모리 풀이 핵심 강점입니다: Llama 70B Q4_K_M (~41 GB)을 로드할 수 있습니다. 다른 설정에서는 여러 데스크톱 GPU가 필요한 모델입니다.
✓Ryzen AI Max 395 속도: Llama 3.3 8B ~22 tok/s, Qwen 3 14B ~13 tok/s, Qwen 3 32B ~7 tok/s (Vulkan 기준)
✓2026년 중반 기준 Ollama에서 Strix Halo의 Windows 지원은 성숙 중입니다. Linux via Vulkan이 안정적인 경로입니다.

Strix Halo에서 Vulkan으로 Ollama 실행하는 방법

Linux에서 표준 Ollama 바이너리를 설치하면 충분합니다. RDNA 3.5 (gfx1150)를 기본 지원하는 Vulkan 백엔드와 함께 llama.cpp를 사용합니다. Vulkan 경로에는 추가 ROCm 설치가 필요하지 않습니다. 평소처럼 `curl -fsSL https://ollama.com/install.sh | sh`를 실행하십시오.

설치 후, 긴 세션에서 메모리 효율을 높이기 위해 flash attention 플래그를 설정하십시오: `OLLAMA_FLASH_ATTENTION=1 ollama run qwen2.5:14b`. 이렇게 하면 KV-cache 메모리 사용량이 줄어들며, 96 GB 풀 전체에 근접하는 32B 이상 모델을 실행할 때 특히 중요합니다.

Ollama가 GPU(CPU가 아닌)를 사용하는지 확인하려면 모델이 활성화된 상태에서 `ollama ps`를 실행하십시오. 출력에서 PROCESSOR 열에 "GPU"가 표시되고 VRAM 값이 0이 아니어야 합니다. "CPU"가 표시되면 Vulkan 백엔드가 초기화되지 않은 것입니다. Linux 배포판에 `vulkan-icd-loader` 패키지가 설치되어 있는지 확인하십시오.

모델	Q4_K_M VRAM	속도 (MAX 395 Vulkan)	96 GB 적합 여부
Llama 3.3 8B	4.9 GB	~22 tok/s	✓
Qwen 3 14B	9.3 GB	~13 tok/s	✓
Qwen 3 32B	19.4 GB	~7 tok/s	✓
Llama 3.3 70B	~41 GB	~3 tok/s	✓
Qwen 3 72B	~43 GB	~3 tok/s	✓

Amazon에서 Minisforum AI370-G 가격 확인제품 링크 · 공개됨Amazon에서 ASUS ROG NUC 가격 확인제품 링크 · 공개됨

Strix Halo vs RTX 4090: 메모리가 이기고 속도는 진다

Ryzen AI Max 395는 GPU 속도를 메모리 용량과 교환합니다. RTX 4090은 Llama 3.3 8B를 ~45 tok/s로 실행하는 반면 Strix Halo Vulkan은 ~22 tok/s입니다. 7B 및 14B 모델에서는 RTX 4090이 더 빠릅니다. 그러나 RTX 4090은 24 GB VRAM으로 제한되지만 Strix Halo MAX 395는 96 GB를 갖추고 있어 단일 데스크톱 GPU로는 불가능한 모델 크기를 실현합니다.

Strix Halo의 실용적인 사용 사례는 클라우드 API 없이 로컬에서 32B–70B 모델을 실행하는 것입니다. Q4_K_M의 Qwen 3 32B (~19 GB)는 ~7 tok/s로 실행됩니다. 대화형 채팅에는 느리지만 일괄 요약, 문서 처리 또는 야간 파인튜닝 작업에는 유효합니다. Q4_K_M의 Llama 3.3 70B (~41 GB)는 ~3 tok/s로 도달 가능하며 고품질 단일 쿼리에 적합합니다.

Windows에서 Ollama는 2026년 중반 기준 Strix Halo에서 기본적으로 CPU 추론으로 돌아갑니다. Windows 공식 Ollama 버전에서 gfx1150에 대한 ROCm iGPU 지원이 아직 완료되지 않았기 때문입니다. Vulkan 경로는 `-DGGML_VULKAN=ON`으로 소스에서 llama.cpp를 직접 컴파일해야 합니다. Windows ROCm 경로가 성숙할 때까지는 GPU 가속 Strix Halo 추론에 Linux를 권장합니다.

Apple Silicon APU 하드웨어와의 비교는 Mac Mini M4 로컬 LLM 바이트를 참조하십시오. macOS의 대체 통합 메모리 접근 방식을 다룹니다.

Strix Halo와 Ollama Vulkan에 대한 빠른 답변

AMD Strix Halo는 Ollama에서 ROCm을 지원합니까?▾

2026년 중반 기준 완전하지 않습니다. gfx1150 (RDNA 3.5)에 대한 ROCm 지원은 개발 중이지만 공식 Ollama 릴리스에서 아직 안정화되지 않았습니다. Vulkan 백엔드가 현재 Linux에서 신뢰할 수 있는 GPU 가속 경로입니다. ROCm iGPU 지원 업데이트는 GitHub의 Ollama 릴리스 페이지를 확인하십시오.

Windows에서 Strix Halo Vulkan으로 Ollama를 사용할 수 있습니까?▾

실험적으로 가능합니다. Windows 공식 Ollama 버전은 Strix Halo에서 기본적으로 Vulkan 백엔드를 노출하지 않으며 CPU로 돌아갑니다. Windows에서 -DGGML_VULKAN=ON으로 소스에서 llama.cpp를 컴파일하여 활성화할 수 있지만 수동 빌드 과정이 필요합니다. Strix Halo Vulkan 추론에는 Linux가 권장 플랫폼입니다.

Ryzen AI Max 395에 맞는 가장 큰 모델은 무엇입니까?▾

96 GB 통합 메모리로 Ryzen AI Max 395는 Q4_K_M의 Llama 3.3 70B (~41 GB) 또는 Q4_K_M의 Qwen 3 72B (~43 GB)를 남는 메모리와 함께 로드합니다. 매우 큰 모델의 경우 Q5_K_M의 Qwen 3 72B (~55 GB)도 가능하지만 속도는 약 2 tok/s로 낮아집니다. 90 GB 이상을 필요로 하는 모델(예: Q8_0의 70B)은 가용 풀을 초과합니다.

Ollama를 위한 Strix Halo와 Mac Studio M4 Ultra 비교는 어떻습니까?▾

Mac Studio M4 Ultra는 192 GB 통합 메모리를 갖추고 llama.cpp를 통해 Metal 가속을 사용합니다. 토큰당 속도에서 Strix Halo Vulkan보다 상당히 빠릅니다 (70B Q4_K_M에서 ~12 tok/s 대 Strix Halo의 ~3 tok/s). 대형 모델 추론 품질과 속도에서는 M4 Ultra가 우수합니다. Strix Halo는 8B–32B 범위에서만 경쟁력이 있으며 표준 Linux 워크플로우로 작동합니다.

← 프롬프트 요점으로 돌아가기

Strix Halo (Ryzen AI Max) + Ollama Vulkan: 설정 및 성능

Strix Halo에서 Vulkan으로 Ollama 실행하는 방법

Strix Halo vs RTX 4090: 메모리가 이기고 속도는 진다

관련 읽기

Strix Halo와 Ollama Vulkan에 대한 빠른 답변