Key Takeaways
- LM Studio tiene configuración avanzada en la pestaña Configuración → Servidor (opciones de GPU, longitud de contexto).
- La memoria GPU puede ajustarse manualmente del 10 % al 100 % del VRAM -- valores más bajos liberan GPU para otras apps.
- La ventana de contexto (número de tokens que el modelo puede ver) puede extenderse hasta el límite del modelo, pero consume más VRAM.
- La API local (beta) expone endpoints compatibles con OpenAI en localhost:1234 para integración.
- A partir de abril de 2026, el ajuste fino con LoRA no está integrado en LM Studio; usa Text-Generation-WebUI o scripts de entrenamiento.
¿Cómo configuras la memoria GPU en LM Studio?
LM Studio te permite controlar cuánta VRAM de GPU usa el modelo:
- 1. Haz clic en Configuración (icono de engranaje en la parte inferior izquierda).
- 2. Encuentra el control deslizante de Aceleración GPU (predeterminado: 100 %).
- 3. Desliza al 50 % si quieres que la GPU use el 50 % del VRAM, liberando el resto para otras aplicaciones.
- 4. Menor asignación de GPU = menor velocidad de inferencia, pero más margen para apps simultáneas.
- 5. Haz clic en Reiniciar para aplicar los cambios.
¿Cómo extiendes la ventana de contexto?
La ventana de contexto es el número máximo de tokens (texto) que el modelo puede leer. Extenderla permite conversaciones más largas, pero consume más VRAM.
- 1. Abre Configuración → Servidor.
- 2. Busca Longitud de contexto (predeterminado: límite integrado del modelo).
- 3. Aumenta a 4k, 8k, 16k o 32k (según el soporte del modelo).
- 4. Cada duplicación de la longitud de contexto duplica aproximadamente el uso de VRAM.
- 5. Prueba tu contexto extendido iniciando un chat y proporcionando prompts largos.
¿Cómo activas la API local de LM Studio (Beta)?
La API local de LM Studio (beta a partir de abril de 2026) imita la API de OpenAI:
# 1. Open LM Studio Settings → Server
# 2. Turn on "Enable local API server"
# 3. API runs at http://localhost:1234/v1
# 4. Use it like Ollama:
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="llama-3.2-3b-gguf",
messages=[{"role": "user", "content": "Hello"}]
)
print(response.choices[0].message.content)Ver: Ejecutar Claude Code con LM Studio en hardware local
En este tutorial de la comunidad, un desarrollador demuestra cómo ejecutar Claude Code con Qwen 3.5 en una RTX 5090, usando LM Studio Link para conectar una máquina Linux con GPU a un MacBook, sin necesidad de claves de API en la nube. El video cubre la configuración completa y construye un panel de control en Next.js usando únicamente inferencia local de IA.
¿Puedes ajustar fino modelos con LM Studio?
A partir de abril de 2026, LM Studio no tiene ajuste fino con LoRA integrado. Para ajuste fino, usa:
- Text-Generation-WebUI (la opción más sencilla para LoRA)
- LLaMA-Factory (avanzado, de nivel producción)
- unsloth (el más rápido, óptimo para el uso de VRAM)
LM Studio es adecuado para aplicar adaptadores LoRA preentrenados, pero no para entrenar nuevos. Las versiones futuras pueden añadir el entrenamiento LoRA directamente.
¿Cómo ejecutas inferencia por lotes en LM Studio?
La inferencia por lotes significa procesar múltiples prompts sin esperar las respuestas entre ellos. LM Studio no tiene un modo por lotes integrado, pero puedes simularlo mediante la API o un bucle en Python:
# Python: batch inference via LM Studio API
from openai import OpenAI
import json
client = OpenAI(base_url="http://localhost:1234/v1", api_key="x")
prompts = [
"What is 2+2?",
"Explain quantum computing",
"How do transformers work?"
]
results = []
for prompt in prompts:
response = client.chat.completions.create(
model="llama-3.2-3b-gguf",
messages=[{"role": "user", "content": prompt}]
)
results.append({
"prompt": prompt,
"response": response.choices[0].message.content
})
with open("batch_results.json", "w") as f:
json.dump(results, f, indent=2)¿Cómo mides el rendimiento del modelo en LM Studio?
LM Studio incluye una herramienta de benchmark integrada:
- 1. Carga un modelo en LM Studio.
- 2. Haz clic en Configuración → pestaña Benchmark.
- 3. Haz clic en Ejecutar benchmark -- mide tokens/segundo para tu hardware específico.
- 4. Los resultados muestran el rendimiento base sin la sobrecarga del chat.
- Esto te ayuda a comprender la velocidad esperada antes de desplegar en producción.
Errores comunes con las funciones avanzadas de LM Studio
- Reducir demasiado la asignación de GPU y culpar al modelo por la lentitud. Si estableces la GPU al 10 %, la inferencia será 5-10× más lenta porque se ejecuta principalmente en la CPU. Primero prueba con una asignación de GPU del 80 % o más.
- Extender la ventana de contexto más allá del soporte del modelo. Los modelos tienen longitudes de contexto máximas soportadas. Superar ese límite no añade capacidad; simplemente desperdicia VRAM.
- Esperar entrenamiento LoRA en LM Studio. A partir de abril de 2026, no está disponible. Usa Text-Generation-WebUI o librerías de entrenamiento.
- Olvidar que la API necesita activarse explícitamente. La API local está desactivada por defecto. Actívala en Configuración → Servidor.
Preguntas frecuentes sobre las funciones avanzadas de LM Studio
¿Cuál es la diferencia entre la API de LM Studio y la API de Ollama?
Ambas exponen endpoints compatibles con OpenAI. La API de LM Studio usa localhost:1234, la de Ollama usa localhost:11434. Ambas funcionan de forma idéntica. Elige la herramienta que prefieras para chatear.
¿Puedo usar la API de LM Studio en producción?
Funciona, pero la API de Ollama es más madura. La API de LM Studio está en beta. Para producción, Ollama es la opción más segura.
¿Reducir la asignación de GPU reduce los requisitos de VRAM?
Sí. Reducir la asignación de GPU al 50 % aproximadamente reduce a la mitad el uso de VRAM, pero la inferencia es 2-5× más lenta porque el modelo se ejecuta parcialmente en la CPU.
Fuentes
- Documentación de LM Studio -- lmstudio.ai/docs
- LM Studio Local Server (Beta) -- lmstudio.ai/docs/local-server/overview
- Compatibilidad con la API de OpenAI -- platform.openai.com/docs/api-reference
- Los parámetros avanzados del modelo habilitan técnicas de prompting avanzadas. Para desbloquearlos: prompting en cadena de pensamiento muestra cómo estructurar el razonamiento en varios pasos en modelos locales.