Skip to content
Learning Lab · 6 min read

Ejecutar Llama 3 y Mistral Localmente: Hardware, Configuración, Rendimiento

Ejecuta Mistral, Llama y Phi en tu propio hardware sin GPU. Aprende sobre selección de modelos, compensaciones de cuantización y cómo crear flujos de trabajo de producción que no cuestan nada por inferencia.

Local LLM Setup: Mistral, Llama on Your Hardware

Puedes ejecutar un modelo de lenguaje capaz en tu portátil ahora mismo. No un modelo de juguete, sino uno real. Llama 3.1 8B funciona con 16GB de RAM. Mistral 7B funciona con menos. La configuración lleva una hora. La brecha de rendimiento entre las llamadas locales y las API en la nube es menor de lo que piensas.

La mayoría de los desarrolladores asumen que los LLM locales son lentos, limitados o requieren una GPU que no tienen. Esa suposición te cuesta dinero cada mes. También te cuesta latencia, preocupaciones de privacidad y la capacidad de personalizar el comportamiento sin esperar la aprobación de un proveedor de API.

Aquí te mostramos lo que realmente funciona y lo que no.

Elegir el Modelo Adecuado para tu Hardware

El tamaño del modelo y tu RAM disponible no son variables independientes. Tampoco lo es la memoria de la GPU, si tienes una.

Una regla general que se mantiene en la práctica: un modelo necesita aproximadamente 2 bytes de VRAM por parámetro cuando se carga en precisión completa, y aproximadamente 0.5 bytes por parámetro en cuantización de 4 bits. Eso significa que Llama 3.1 8B (8 mil millones de parámetros) necesita aproximadamente 4GB de VRAM en formato de 4 bits, o 16GB en precisión completa.

Para 16GB de RAM total (sin GPU dedicada): Mistral 7B o Llama 3.1 8B funcionan de manera fiable. Ambos funcionan a velocidades utilizables con cuantización. Phi-3 5B es excesivo en términos de capacidad; es bueno si necesitas una huella de memoria inferior a 4GB.

Para 32GB+ de RAM o cualquier GPU con 8GB+ de VRAM: Llama 3.1 70B se vuelve viable. Aquí es donde empiezas a ver mejoras significativas de calidad sobre los modelos más pequeños.

Para máquinas solo con CPU: Espera una inferencia más lenta, no una inferencia inutilizable. Una CPU moderna de 8 núcleos ejecutando Mistral 7B en cuantización de 4 bits genera texto a aproximadamente 5-10 tokens por segundo. Es lo suficientemente lento como para notarlo, pero no lo suficientemente lento como para abandonar el enfoque por completo.

Instalar y Ejecutar con Ollama

Ollama es el camino más rápido para pasar de cero a un modelo en ejecución. Descárgalo, ejecuta tres comandos y listo.

# Instala Ollama desde ollama.ai, luego:
ollama pull mistral:7b
ollama run mistral:7b

Eso es todo. Ahora tienes un modelo ejecutándose en localhost:11434. El primer pull descarga aproximadamente 4-5GB (para Mistral en forma cuantizada). Las ejecuciones posteriores se cargan desde el disco instantáneamente.

Si quieres llamarlo programáticamente desde Python o Node:

import requests
import json

prompt = "Explica cómo funciona la atención del transformador en un párrafo."

response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "mistral:7b",
        "prompt": prompt,
        "stream": False
    }
)

result = json.loads(response.text)
print(result["response"])

Esto es funcionalmente idéntico a una llamada a la API de OpenAI en estructura: envías texto, recibes texto. La diferencia es que el modelo se ejecuta en tu máquina y no cuesta nada por token.

Ollama maneja la cuantización del modelo automáticamente. Por defecto, utiliza cuantización de 4 bits, que reduce el uso de memoria aproximadamente en un 75% con una pérdida mínima de calidad. Puedes forzar la precisión completa con ollama pull mistral:fp16 si tienes la VRAM, pero normalmente no es necesario.

Cuándo los Modelos Locales Tienen un Rendimiento Inferior (y Cómo Saberlo)

Los modelos locales son buenos. No son reemplazos directos para Claude o GPT-4o en todas las tareas.

Mistral 7B funciona bien para: generación de código, resumen, clasificación, extracción estructurada. Falla visiblemente en: razonamiento de contexto largo (cualquier cosa que requiera pensamiento coherente a lo largo de más de 20 párrafos), lógica de múltiples pasos donde los pasos anteriores se acumulan y tareas que requieren conocimiento del mundo explícito publicado después de la fecha de entrenamiento del modelo.

La solución práctica: evalúa tu caso de uso específico. No asumas el fracaso. Probé Mistral 7B en una tarea de clasificación de clientes y coincidió con la precisión de GPT-3.5 al 1/100 del costo. En otra tarea —extracción de sentimiento matizado de documentos financieros— obtuvo un 15% menos. El contexto importa.

Sabrás cuándo un modelo está luchando: salida incoherente, frases repetidas, cambios bruscos de tema o razonamiento correcto que contradice su propia declaración anterior. Estos no siempre son sutiles. Cuando los veas, cambia a la variante 70B o añade más contexto a través de RAG.

Compensaciones de la Cuantización: Velocidad vs. Precisión

La cuantización comprime un modelo representando números con menos bits. La cuantización de 4 bits usa 4 bits por parámetro en lugar de 32, reduciendo el modelo aproximadamente 8 veces.

La pérdida de calidad es real pero no catastrófica para la mayoría de las tareas. Llama 3.1 8B en cuantización de 4 bits obtiene aproximadamente el 95-98% del rendimiento de precisión completa en benchmarks estándar (MMLU, HumanEval). Esa brecha se amplía ligeramente en tareas de lenguaje matizado.

La ganancia de velocidad es sustancial: la cuantización de 4 bits a menudo añade un 20-30% más de inferencia rápida en CPU porque el ancho de banda de la memoria se convierte en un cuello de botella menor. En GPU, la diferencia es menor pero aún medible.

Empieza con 4 bits (predeterminado de Ollama). Si la calidad de la salida es decepcionante, siempre puedes descargar una variante de mayor precisión y volver a intentarlo; los modelos se cargan en segundos una vez descargados.

Construyendo un Flujo de Trabajo de LLM Local: Ejemplo Práctico

Digamos que estás procesando tickets de soporte y extrayendo datos estructurados (prioridad, categoría, urgencia).

import requests
import json

def classify_ticket(ticket_text):
    prompt = f"""Clasifica este ticket de soporte y responde ÚNICAMENTE con JSON.

Ticket: {ticket_text}

Responde con este formato:
{{
  "priority": "high" | "medium" | "low",
  "category": "billing" | "technical" | "account",
  "urgency_minutes": number,
  "summary": "resumen-de-una-sentencia"
}}"""

    response = requests.post(
        "http://localhost:11434/api/generate",
        json={"model": "mistral:7b", "prompt": prompt, "stream": False}
    )
    
    result = json.loads(response.text)["response"]
    return json.loads(result)  # Analiza el JSON de la salida del modelo

ticket = "El cliente dice que el inicio de sesión dejó de funcionar después de restablecer la contraseña. Necesita acceso antes del final del día."
print(classify_ticket(ticket))

Esto funciona. Mistral 7B genera de manera fiable JSON válido para tareas de extracción estructurada, mejor de lo que cabría esperar de un modelo de 7B. La latencia en una CPU moderna es de 2 a 4 segundos de extremo a extremo. Es más lento que una llamada a una API en la nube (que podría ser de 0.5 a 1 segundo), pero lo estás ejecutando sin conexión y pagando cero por inferencia.

Una Cosa para Hacer Hoy: Prueba el Límite de tu Hardware

Descarga Ollama. Ejecuta ollama pull mistral:7b. Ejecuta el modelo. Comprueba el uso de la RAM del sistema y la CPU mientras se ejecuta: top en Mac/Linux o el Administrador de Tareas en Windows.

Verás exactamente cuánto margen tienes antes de llegar al límite. Ese número te dice si puedes ejecutar cómodamente modelos de 7B, si necesitas reducir a modelos más pequeños o si un modelo de 70B está a tu alcance. No se requiere suposición. Solo datos.

Batikan
· 6 min read
Topics & Keywords
Learning Lab modelo una que mistral con para del cuantización
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

Crea tu primer Agente de IA sin Código
Learning Lab

Crea tu primer Agente de IA sin Código

Crea tu primer agente de IA funcional sin código ni conocimiento de API. Aprende las tres arquitecturas de agentes, compara plataformas y sigue un ejemplo real que maneja el triaje de correos y la búsqueda en CRM, desde la configuración hasta el despliegue.

· 15 min read
Gestión de la Ventana de Contexto: Procesar Documentos Largos Sin Perder Datos
Learning Lab

Gestión de la Ventana de Contexto: Procesar Documentos Largos Sin Perder Datos

Los límites de la ventana de contexto rompen los sistemas de IA de producción. Aprende tres técnicas concretas para manejar documentos y conversaciones largas sin perder datos ni quemar costos de API.

· 4 min read
Construyendo Agentes de IA: Patrones de Arquitectura, Llamadas a Herramientas y Gestión de Memoria
Learning Lab

Construyendo Agentes de IA: Patrones de Arquitectura, Llamadas a Herramientas y Gestión de Memoria

Aprende a construir agentes de IA listos para producción dominando los contratos de llamadas a herramientas, estructurando correctamente los bucles de agentes y separando la memoria en capas de sesión, conocimiento y ejecución. Incluye ejemplos de código Python funcionales.

· 2 min read
Conecta LLMs a Tus Herramientas: Configuración de Automatización de Flujos de Trabajo
Learning Lab

Conecta LLMs a Tus Herramientas: Configuración de Automatización de Flujos de Trabajo

Conecta ChatGPT, Claude y Gemini a Slack, Notion y Hojas de Cálculo a través de APIs y plataformas de automatización. Conoce las compensaciones entre modelos, crea un bot funcional de Slack y automatiza tu primer flujo de trabajo hoy mismo.

· 6 min read
Zero-Shot vs. Few-Shot vs. Chain-of-Thought: Elige la Técnica Correcta
Learning Lab

Zero-Shot vs. Few-Shot vs. Chain-of-Thought: Elige la Técnica Correcta

Zero-shot, few-shot y chain-of-thought son tres técnicas de prompting distintas con diferentes perfiles de precisión, latencia y costo. Aprenda cuándo usar cada una, cómo combinarlas y cómo medir cuál enfoque funciona mejor para su tarea específica.

· 19 min read
10 Flujos de Trabajo con ChatGPT que Realmente Ahorran Tiempo en los Negocios
Learning Lab

10 Flujos de Trabajo con ChatGPT que Realmente Ahorran Tiempo en los Negocios

ChatGPT ahorra horas cuando le das estructura y restricciones claras. Aquí tienes 10 flujos de trabajo de producción, desde la redacción de correos electrónicos hasta el análisis competitivo, que reducen el trabajo repetitivo a la mitad, con prompts funcionales que puedes usar hoy mismo.

· 7 min read

More from Prompt & Learn

Figma AI vs Canva AI vs Adobe Firefly: Comparativa de Herramientas de Diseño
AI Tools Directory

Figma AI vs Canva AI vs Adobe Firefly: Comparativa de Herramientas de Diseño

Figma AI, Canva AI y Adobe Firefly abordan el diseño generativo de forma diferente. Figma prioriza la integración fluida; Canva, la velocidad; Firefly, la calidad del resultado. Descubre qué herramienta se adapta mejor a tu flujo de trabajo.

· 6 min read
DeepL añade traducción por voz. Esto es lo que cambia para los equipos
AI Tools Directory

DeepL añade traducción por voz. Esto es lo que cambia para los equipos

DeepL anunció la traducción de voz en tiempo real para Zoom y Microsoft Teams. A diferencia de las soluciones existentes, se basa en la fortaleza de DeepL en traducción de texto: modelos de traducción directa con menor latencia. Aquí explicamos por qué esto importa y dónde falla.

· 4 min read
10 Herramientas Gratuitas de IA que Realmente se Pagan Solas en 2026
AI Tools Directory

10 Herramientas Gratuitas de IA que Realmente se Pagan Solas en 2026

Diez herramientas gratuitas de IA que realmente reemplazan el SaaS de pago en 2026: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright y Mistral. Cada una probada en flujos de trabajo reales con límites de tasa realistas, benchmarks de precisión y comparaciones de costos.

· 3 min read
Copilot vs Cursor vs Windsurf: ¿Qué asistente de IDE funciona realmente?
AI Tools Directory

Copilot vs Cursor vs Windsurf: ¿Qué asistente de IDE funciona realmente?

Tres asistentes de codificación dominan 2026. Copilot sigue siendo seguro para empresas. Cursor gana en velocidad y precisión para la mayoría de los desarrolladores. El modo agent de Windsurf ejecuta código para prevenir alucinaciones. Aquí te explicamos cómo elegir.

· 3 min read
Herramientas de IA que realmente te ahorran horas
AI Tools Directory

Herramientas de IA que realmente te ahorran horas

Probé 30 herramientas de productividad de IA en escritura, codificación, investigación y operaciones. Solo 8 ahorraron tiempo medible. Aquí te explico qué herramientas tienen un ROI real, en qué flujos de trabajo destacan y por qué la mayoría de las "herramientas de productividad de IA" fallan.

· 15 min read
El Sistema de Marca de Agua de IA de Google, ¿Roto? Esto es lo que Significa
AI News

El Sistema de Marca de Agua de IA de Google, ¿Roto? Esto es lo que Significa

Un desarrollador afirma haber realizado ingeniería inversa del sistema de marca de agua SynthID de Google DeepMind utilizando procesamiento básico de señales y 200 imágenes. Google disputa la afirmación, pero el incidente plantea dudas sobre si la marca de agua puede ser una defensa confiable contra el uso indebido de contenido generado por IA.

· 4 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder