Tu modelo funcionó en las pruebas. Los usuarios lo desplegaron en producción. Tres días después, comenzó a recomendar con confianza decisiones financieras que violaban las reglas de cumplimiento. Nadie lo detectó hasta que un cliente presentó una queja.
Esto sucede porque los desarrolladores tratan la seguridad de la IA como una ocurrencia tardía — algo que QA marca al final, no algo integrado en el diseño del sistema. La alineación no es filosofía abstracta. Es un conjunto de restricciones concretas y comprobables que mantienen el comportamiento de tu modelo dentro de los límites.
La Seguridad No Es Una Característica. Es una Decisión de Arquitectura.
Cuando construí sistemas de trading en AlgoVesta, «seguro» significaba: el modelo no podía recomendar operaciones que excedieran los límites de posición, no podía ignorar los umbrales de riesgo y no podía alucinar datos históricos. Estos no se aplicaban por esperanza — se aplicaban por diseño.
La mayoría de los fallos de seguridad de IA ocurren porque los desarrolladores confunden dos problemas diferentes:
- Alineación: ¿El modelo se comporta como pretendes? (¿Sigue tus valores, restricciones y reglas de negocio?)
- Veracidad: ¿Alucina o confabula? (¿Puedes confiar en sus afirmaciones fácticas?)
Puedes tener un modelo perfectamente veraz que esté completamente desalineado con tus requisitos de negocio. Claude Sonnet 4 no alucinará artículos de investigación falsos en la mayoría de los contextos, pero sin salvaguardas, seguirá haciendo recomendaciones fuera de tus umbrales de tolerancia.
Tres Capas de Seguridad — y Dónde Fallan
La seguridad en producción requiere múltiples comprobaciones independientes. El fallo de una capa no debería propagarse.
Capa 1: Restricciones a Nivel de Prompt
Aquí es donde la mayoría de los desarrolladores se detienen. Escribes una restricción en tu prompt del sistema y crees que está hecho. Aquí tienes un ejemplo real:
// MAL: Restricción enterrada en prosa
Eres un asesor financiero. Sigue todas las reglas de cumplimiento.
Haz recomendaciones solo cuando tengas alta confianza.
Nunca recomiendes inversiones de riesgo.
Esto falla porque «de riesgo» no está definido. Claude lo interpreta de manera diferente a tu equipo de cumplimiento. Aquí está la versión de producción:
// MEJORADO: Límite de decisión explícito
Eres un asesor financiero. Solo puedes recomendar inversiones donde:
- La ratio de Sharpe sea >= 1.2
- La volatilidad sea <= 15% anualizada
- La concentración en cualquier activo individual <= 5% de la cartera
Si ninguna de estas condiciones se cumple, responde: