Skip to main content
PromptQuorumPromptQuorum

¿Mejor SSD para cargar modelos rápido en 2026?

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Respuesta rápida

Samsung 990 Pro 2 TB a 7.450 MB/s carga un modelo 7B Q4 en menos de 2 segundos. La mejor relación precio-velocidad para almacenamiento de modelos de IA.

  • Un modelo 7B Q4_K_M (~4,1 GB) carga en ~0,8 s en un 990 Pro frente a ~3,5 s en un SSD SATA.
  • Cualquier NVMe Gen4 funciona — WD Black SN850X y Seagate FireCuda 530 son alternativas cercanas.
  • Coloca la caché de modelos de Ollama (~/ollama/models) en el NVMe, no en la unidad del sistema operativo.

Actualizado: 2026-05

Hardware-SpecificIntermedio

Puntos clave

  • Mejor opción: Samsung 990 Pro 2 TB (PCIe Gen4 NVMe) — ~7.000 MB/s de lectura secuencial carga un modelo 14B en RAM en menos de 5 segundos
  • Los NVMe PCIe Gen4 cargan archivos de modelos grandes 7-10 veces más rápido que los SSD SATA
  • 2 TB es el mínimo práctico en cuanto tienes más de dos o tres modelos cuantizados en disco
  • Las unidades Gen5 son más rápidas en papel, pero la ventaja importa menos para la carga de LLM que para benchmarks puros

Mejor opción: Samsung 990 Pro 2 TB (PCIe Gen4 NVMe)

El Samsung 990 Pro 2 TB es el mejor SSD para carga rápida de modelos LLM porque sus ~7.000 MB/s de lectura secuencial cargan un modelo 14B Q4 (~9 GB) en RAM en menos de 5 segundos. Un SSD SATA a ~550 MB/s tarda más de 15 segundos con el mismo modelo. En un HDD lento, la espera supera el minuto.

PCIe Gen4 NVMe es el punto óptimo. El Samsung 990 Pro, WD Black SN850X y Crucial T500 se sitúan cerca de los 7.000 MB/s de lectura secuencial a precios similares. Las unidades Gen5 alcanzan picos más altos, pero la ganancia para la carga de modelos es pequeña — y Gen5 requiere una placa base compatible.

Compra 2 TB o más. En cuanto acumulas varios modelos cuantizados (7B, 8B, 13B, 14B en múltiples cuantizaciones), 1 TB se llena rápido. 2 TB dejan espacio para el sistema operativo, frameworks y una docena de modelos sin necesidad de rotar descargas. Para precios actuales, consulta los listados de retailers — los precios de NVMe cambian semana a semana.

Tipos de SSD comparados para carga de modelos LLM

La velocidad de lectura secuencial es el único número que importa para la carga de modelos. La tabla muestra cuánto tarda cada unidad en cargar un modelo 14B Q4 (~9 GB) desde disco a RAM — aproximado, sin overhead del sistema.

Tipo de unidadLectura secuencialTiempo de carga modelo 9 GBVeredicto
PCIe Gen4 NVMe (ej. Samsung 990 Pro)~7.000 MB/s~1,5 s (teórico), ~3-5 s (real)Mejor opción
PCIe Gen3 NVMe~3.500 MB/s~3-7 sAceptable
SSD SATA~550 MB/s~17-25 sLento — actualiza si es posible
HDD (7200 RPM)~150 MB/s~60-90 sEvitar para LLMs

Lectura relacionada

Respuestas rápidas sobre SSD para LLMs locales

¿Un SSD más rápido acelera la inferencia?
No. Una vez que el modelo está cargado en RAM o VRAM, la velocidad de inferencia depende del ancho de banda de memoria y la GPU, no del SSD. Un SSD rápido solo acelera la carga inicial al arrancar el modelo o al cambiar entre modelos.
¿Vale la pena PCIe Gen5 frente a Gen4 para LLMs?
Para la carga de modelos, la ganancia es pequeña. Las unidades Gen5 superan los 12.000 MB/s, pero el tiempo de carga de un modelo de 9 GB baja de ~1,5 s a menos de 1 s — la mayoría de usuarios no lo notará. Gen5 también cuesta más y necesita un slot Gen5 en la placa base.
¿Cuánto almacenamiento SSD necesito para LLMs locales?
2 TB es un mínimo cómodo. Unos pocos modelos 14B cuantizados pueden ocupar 30-50 GB combinados, y normalmente quieres varios modelos en disco para cambiar entre casos de uso. 1 TB se llena rápido cuando también tienes sistema operativo, frameworks y datos de usuario.
¿La unidad del sistema operativo tiene que ser el mismo SSD?
No. Puedes poner el sistema operativo en una unidad y los archivos de modelos en un NVMe rápido separado. Es una configuración habitual. Solo apunta Ollama o LM Studio al directorio de modelos en la unidad rápida.