Skip to content
Learning Lab · 6 min read

Zero-Shot vs Few-Shot vs Chain-of-Thought: Qué Técnica de Prompting Funciona Realmente

Tres técnicas de prompting principales, cada una con una diferente compensación entre precisión y velocidad. Aprende cuándo usar cada una, cuánto cuestan en tokens y cómo decidir cuál funciona para tu tarea.

Zero-Shot vs Few-Shot Prompting: When to Use Each Technique

Tienes tres minutos para extraer datos estructurados de correos electrónicos de clientes. El modelo alucina campos. Intentas un prompt más detallado. Sigue alucinando. Añades ejemplos. Mejor, pero no fiable. Recorres el razonamiento paso a paso. Funciona.

La diferencia entre esos intentos no es suerte, sino tres patrones de prompting distintos que sacrifican simplicidad por precisión. Entender cuándo falla cada uno importa más que saber que existen.

Zero-Shot: Velocidad Sobre Precisión

Zero-shot significa que le das al modelo una tarea sin ejemplos. Solo la instrucción y la entrada.

# Prompt Zero-shot
Extrae el total del pedido del cliente, el nombre del producto y la dirección de envío de este correo electrónico:

---
[aquí el correo del cliente]
---

Responde en formato JSON.

Esto funciona cuando: la tarea es simple, el dominio es común (servicio al cliente, clasificación básica) y te importa más la velocidad que la precisión. Claude Sonnet 4 y GPT-4o manejan esto bien en tareas sencillas, típicamente con un 70–85% de precisión en la extracción estructurada si los datos están claramente presentes en el texto fuente.

Esto falla rápidamente cuando: la tarea requiere conocimiento del dominio, reconocimiento de patrones en casos extremos o lógica de múltiples pasos. Un prompt zero-shot que pide a un modelo clasificar transacciones financieras sospechosas sin ejemplos omitirá patrones sutiles que un prompt few-shot capta inmediatamente. El modelo no tiene un punto de referencia para lo que significa «sutil» en tu dominio.

Costo de tokens: el más bajo. Envías una instrucción y una entrada. Para tareas de alto volumen (miles de inferencias), esta diferencia se acumula.

Few-Shot: El Punto Medio Práctico

Few-shot añade 2–5 ejemplos antes de la tarea real. El modelo aprende el patrón de estos ejemplos sin un reentrenamiento explícito.

# Versión Zero-shot (línea base)
Clasifica este ticket de soporte como urgente o rutinario:

Ticket: "Mi pago falló y mi pedido debía llegar hoy."

# Versión Few-shot (mejorada)
Clasifica este ticket de soporte como urgente o rutinario.

Ejemplos:

Ticket: "No puedo iniciar sesión en mi cuenta."
Clasificación: Rutinario

Ticket: "El pago falló y mi pedido debía llegar hoy."
Clasificación: Urgente

Ticket: "¿Cómo restablezco mi contraseña?"
Clasificación: Rutinario

Ticket: "El servidor está caído y los clientes no pueden ver el estado de su pedido."
Clasificación: Urgente

Ahora clasifica este:
Ticket: "Mi pago falló y mi pedido debía llegar hoy."
Clasificación:

La versión few-shot muestra al modelo exactamente qué entiendes por «urgente» en tu contexto específico. Fallo de pago + promesa de entrega = urgente. El modelo no adivina definiciones, extrapola de tus ejemplos.

Esto funciona cuando: tienes 3–10 ejemplos claros y representativos y la tarea tiene patrones reconocibles. Few-shot supera consistentemente a zero-shot en un 15–30% en tareas de clasificación y extracción en benchmarks (pruebas internas de Anthropic, enero de 2025). Es lo suficientemente fiable para uso en producción en tareas de riesgo medio.

Esto falla cuando: tus ejemplos no cubren casos extremos, o el patrón es genuinamente complejo. Si tus ejemplos de tickets «urgentes» solo involucran problemas de pago, pero un ticket sobre preocupaciones de privacidad de datos también necesita manejo urgente, few-shot aprende el patrón incorrecto. Solo es tan bueno como tus ejemplos.

Costo de tokens: mayor que zero-shot, menor que chain-of-thought. Tres ejemplos añaden ~300–500 tokens por solicitud. A escala, esto importa.

Chain-of-Thought: Razonamiento Sobre Emparejamiento de Patrones

Chain-of-thought pide al modelo que explique su razonamiento antes de responder. «Piensa en esto paso a paso» es la versión más simple. El modelo muestra su trabajo, y la precisión mejora, a veces drásticamente.

# Few-shot sin razonamiento
Un cliente pidió 3 widgets a $50 cada uno con $15 de envío.
Aplicaron un código de descuento del 10%. ¿Cuál es el total final?

Total: $165

# Few-shot con chain-of-thought
Un cliente pidió 3 widgets a $50 cada uno con $15 de envío.
Aplicaron un código de descuento del 10%. ¿Cuál es el total final?

Vamos a resolver esto paso a paso:
1. Costo de los widgets: 3 × $50 = $150
2. Añadir envío: $150 + $15 = $165
3. Aplicar descuento del 10%: $165 × 0.90 = $148.50
4. Total final: $148.50

Respuesta final: $148.50

El modelo lo acierta. Sin el desglose paso a paso, podría confundir el orden de las operaciones o aplicar el descuento incorrectamente. Chain-of-thought fuerza un razonamiento intermedio que expone la lógica defectuosa.

Esto funciona cuando: la tarea implica matemáticas, lógica, razonamiento de múltiples pasos o compensaciones complejas. La investigación de OpenAI muestra que chain-of-thought puede mejorar la precisión en tareas de matemáticas y razonamiento en un 40–60% (Wei et al., 2022). En producción en AlgoVesta, usamos chain-of-thought para prompts de análisis de carteras; la salida de razonamiento también se convierte en evidencia auditable de cómo se tomó una decisión.

Esto falla cuando: necesitas velocidad y la tarea es simple. Una tarea de clasificación («¿esto es spam?») no necesita chain-of-thought. Los tokens y la latencia añadidos desperdician tiempo sin ganancia de precisión. Además, chain-of-thought puede amplificar alucinaciones si el modelo explica con confianza un razonamiento incorrecto. Es más transparente sobre estar equivocado, pero sigue equivocado.

Costo de tokens: el más alto. La salida de razonamiento paso a paso puede duplicar o triplicar el uso de tokens en comparación con zero-shot. A escala de inferencia, esto se convierte en una restricción de costo real.

Cuál Usar: Un Marco de Decisión

  • Zero-shot: Clasificación simple, extracción directa, tareas de alto volumen donde el 80% de precisión es aceptable. Empieza por aquí, es la línea base.
  • Few-shot: Complejidad media, patrones específicos del dominio, se necesita 90%+ de precisión. Añade ejemplos cuando zero-shot falla en casos extremos.
  • Chain-of-thought: Se requiere razonamiento, involucra matemáticas, lógica de múltiples pasos o cuando necesitas auditar el razonamiento en sí. Combina con ejemplos few-shot para obtener los mejores resultados en tareas complejas.

Los tres no son mutuamente excluyentes. Los flujos de trabajo de producción a menudo usan zero-shot como una primera pasada (verificación de velocidad), few-shot para casos que fallan, y chain-of-thought para decisiones de alto riesgo que necesitan validación del razonamiento.

Empieza con Zero-Shot, Añade Solo Si Es Necesario

La mayoría de los equipos desperdician tokens empezando con few-shot cuando zero-shot funcionaría. Prueba zero-shot primero. Si la precisión cae por debajo de tu umbral, añade 3–5 ejemplos y vuelve a probar. Solo pasa a chain-of-thought si la tarea realmente requiere razonamiento. En sistemas de producción reales, usarás los tres, en diferentes etapas del mismo pipeline.

Batikan
· 6 min read
Topics & Keywords
Learning Lab zero-shot few-shot ejemplos chain-of-thought razonamiento que paso precisión
Share

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies.

Related Articles

Crea Logos Profesionales en Midjourney: Activos de Marca Paso a Paso
Learning Lab

Crea Logos Profesionales en Midjourney: Activos de Marca Paso a Paso

Midjourney genera conceptos de logo en segundos — pero los activos de marca profesionales requieren estructuras de prompt específicas, refinamiento iterativo y conversión a vector. Esta guía muestra el flujo de trabajo exacto que produce logos listos para producción.

· 5 min read
Claude vs ChatGPT vs Gemini: Elige el LLM Adecuado para Tu Flujo de Trabajo
Learning Lab

Claude vs ChatGPT vs Gemini: Elige el LLM Adecuado para Tu Flujo de Trabajo

Claude, ChatGPT y Gemini destacan en diferentes tareas. Esta guía desglosa diferencias reales de rendimiento, tasas de alucinación, compensaciones de costos y flujos de trabajo específicos donde cada modelo gana, con prompts concretos que puedes usar de inmediato.

· 5 min read
Crea tu primer Agente de IA sin Código
Learning Lab

Crea tu primer Agente de IA sin Código

Crea tu primer agente de IA funcional sin código ni conocimiento de API. Aprende las tres arquitecturas de agentes, compara plataformas y sigue un ejemplo real que maneja el triaje de correos y la búsqueda en CRM, desde la configuración hasta el despliegue.

· 15 min read
Gestión de la Ventana de Contexto: Procesar Documentos Largos Sin Perder Datos
Learning Lab

Gestión de la Ventana de Contexto: Procesar Documentos Largos Sin Perder Datos

Los límites de la ventana de contexto rompen los sistemas de IA de producción. Aprende tres técnicas concretas para manejar documentos y conversaciones largas sin perder datos ni quemar costos de API.

· 4 min read
Construyendo Agentes de IA: Patrones de Arquitectura, Llamadas a Herramientas y Gestión de Memoria
Learning Lab

Construyendo Agentes de IA: Patrones de Arquitectura, Llamadas a Herramientas y Gestión de Memoria

Aprende a construir agentes de IA listos para producción dominando los contratos de llamadas a herramientas, estructurando correctamente los bucles de agentes y separando la memoria en capas de sesión, conocimiento y ejecución. Incluye ejemplos de código Python funcionales.

· 2 min read
Conecta LLMs a Tus Herramientas: Configuración de Automatización de Flujos de Trabajo
Learning Lab

Conecta LLMs a Tus Herramientas: Configuración de Automatización de Flujos de Trabajo

Conecta ChatGPT, Claude y Gemini a Slack, Notion y Hojas de Cálculo a través de APIs y plataformas de automatización. Conoce las compensaciones entre modelos, crea un bot funcional de Slack y automatiza tu primer flujo de trabajo hoy mismo.

· 6 min read

More from Prompt & Learn

Surfer vs Ahrefs AI vs SEMrush: ¿Cuál optimiza mejor el contenido para posicionar?
AI Tools Directory

Surfer vs Ahrefs AI vs SEMrush: ¿Cuál optimiza mejor el contenido para posicionar?

Dedicaste tres horas a optimizar un artículo de 2.500 palabras. Lo publicaste. Esperaste dos semanas. Alcanzó la posición 47. El competidor con la mitad de tu recuento de palabras llegó a la posición 3. La diferencia no fue el esfuerzo. Fue la herramienta. Tres plataformas de SEO con IA ahora afirman que arreglarán tu problema de posicionamiento: Surfer, Ahrefs AI y SEMrush. Cada una utiliza modelos de lenguaje para analizar el contenido mejor posicionado, detectar brechas de optimización y sugerir correcciones. En teoría, resuelven el mismo problema. En la práctica, lo resuelven de manera diferente, con diferentes puntos ciegos, diferentes costos y diferentes tasas de precisión. Esto no es una comparación de marketing. Esto es lo que sucede cuando usas las tres en campañas de posicionamiento reales.

· 13 min read
Figma AI vs Canva AI vs Adobe Firefly: Comparativa de Herramientas de Diseño
AI Tools Directory

Figma AI vs Canva AI vs Adobe Firefly: Comparativa de Herramientas de Diseño

Figma AI, Canva AI y Adobe Firefly abordan el diseño generativo de forma diferente. Figma prioriza la integración fluida; Canva, la velocidad; Firefly, la calidad del resultado. Descubre qué herramienta se adapta mejor a tu flujo de trabajo.

· 6 min read
DeepL añade traducción por voz. Esto es lo que cambia para los equipos
AI Tools Directory

DeepL añade traducción por voz. Esto es lo que cambia para los equipos

DeepL anunció la traducción de voz en tiempo real para Zoom y Microsoft Teams. A diferencia de las soluciones existentes, se basa en la fortaleza de DeepL en traducción de texto: modelos de traducción directa con menor latencia. Aquí explicamos por qué esto importa y dónde falla.

· 4 min read
10 Herramientas Gratuitas de IA que Realmente se Pagan Solas en 2026
AI Tools Directory

10 Herramientas Gratuitas de IA que Realmente se Pagan Solas en 2026

Diez herramientas gratuitas de IA que realmente reemplazan el SaaS de pago en 2026: Claude, Perplexity, Llama 3.2, DeepSeek R1, GitHub Copilot, OpenRouter, HuggingFace, Jina, Playwright y Mistral. Cada una probada en flujos de trabajo reales con límites de tasa realistas, benchmarks de precisión y comparaciones de costos.

· 3 min read
Copilot vs Cursor vs Windsurf: ¿Qué asistente de IDE funciona realmente?
AI Tools Directory

Copilot vs Cursor vs Windsurf: ¿Qué asistente de IDE funciona realmente?

Tres asistentes de codificación dominan 2026. Copilot sigue siendo seguro para empresas. Cursor gana en velocidad y precisión para la mayoría de los desarrolladores. El modo agent de Windsurf ejecuta código para prevenir alucinaciones. Aquí te explicamos cómo elegir.

· 3 min read
Herramientas de IA que realmente te ahorran horas
AI Tools Directory

Herramientas de IA que realmente te ahorran horas

Probé 30 herramientas de productividad de IA en escritura, codificación, investigación y operaciones. Solo 8 ahorraron tiempo medible. Aquí te explico qué herramientas tienen un ROI real, en qué flujos de trabajo destacan y por qué la mayoría de las "herramientas de productividad de IA" fallan.

· 15 min read

Stay ahead of the AI curve

Weekly digest of the most impactful AI breakthroughs, tools, and strategies. No noise, only signal.

Follow Prompt Builder Prompt Builder