“El portero sigue un guion. Encuentra una frase que el guion no cubra, y ya estás dentro.”
Qué es un jailbreak
Los proveedores de modelos integran salvaguardas en sus modelos: rechazos para ciertas categorías de petición. Un jailbreak es cualquier prompt que sortea esas salvaguardas: escenificaciones de juego de rol («finge que eres una IA sin reglas»), hipótesis, peticiones codificadas, o descomponer una tarea prohibida en piezas de apariencia inofensiva. Aparecen jailbreaks nuevos constantemente; los proveedores los parchean; el ciclo continúa.
La razón de fondo por la que los jailbreaks siguen funcionando: el entrenamiento de seguridad es una capa aplicada sobre un modelo que fundamentalmente quiere ser útil y continuar cualquier texto plausible. Las salvaguardas son tendencias estadísticas, no reglas rígidas, y una formulación lo bastante novedosa se cuela entre ellas. No existe ningún método conocido para hacer un modelo útil e imposible de jailbreakear.
¿De quién es el problema?
Aquí está el replanteamiento que la mayoría de los equipos pasa por alto. Si construyes sobre un modelo alojado, las salvaguardas del proveedor tratan sobre todo de la responsabilidad y la marca del proveedor, no de la seguridad de tu aplicación. Un usuario que hace un jailbreak a ChatGPT para escribir algo ofensivo es un problema de reputación para OpenAI. La pregunta que te concierne es otra: ¿qué puede hacer realmente un usuario a través de tu aplicación comportándose mal?
El abuso que te concierne
Concentra tu esfuerzo en el abuso a nivel de aplicación, que te pertenece a ti con independencia de lo buenas que sean las salvaguardas del proveedor:
- Escape de alcance: conseguir que tu bot de atención al cliente actúe como un asistente de propósito general, quemando tus tokens en las tareas del atacante.
- Abuso de capacidad: inducir al modelo a usar una herramienta o acceder a datos fuera de la tarea prevista (de nuevo el problema del delegado confundido).
- Agotamiento de recursos: disparar operaciones costosas (contextos enormes, largos bucles de agente) para inflar tu factura o degradar el servicio para los demás.
- Salidas dañinas para la reputación: tu asistente de marca produciendo contenido que te avergüenza, porque en tu interfaz habla en tu nombre.
Las defensas son las mismas medidas arquitectónicas del capítulo sobre la inyección, porque la amenaza es la misma: instrucciones no fiables encontrándose con capacidades. Restringe el alcance y las herramientas del modelo, limita la tasa y pon topes de presupuesto por usuario, y verifica que las salidas y las acciones se mantengan dentro de los límites previstos por la aplicación. No estás intentando hacer que el modelo rechace todo lo malo del mundo. Estás intentando asegurar que, dentro de tu aplicación, solo pueda hacer el trabajo de tu aplicación.
La seguridad de contenido donde sí importa
Si tu producto expone de verdad generación abierta al público bajo tu marca (un asistente de redacción, un chatbot público), entonces la seguridad de contenido forma parte de tu problema, y las salvaguardas del proveedor por sí solas no cubrirán tus riesgos concretos. Añade una capa de moderación de salidas (un clasificador o una API de moderación) calibrada para las categorías que importan en tu contexto y tu público, y registra y revisa lo que se marca. Ajusta el control a la exposición real, en lugar de tratar cada aplicación como si estuviera a un jailbreak de la catástrofe.
Una línea por cada uno
- Un jailbreak sortea las salvaguardas entrenadas del modelo; aparecen nuevos constantemente porque la seguridad es una tendencia, no una regla rígida.
- Las salvaguardas del proveedor tratan sobre todo de la responsabilidad del proveedor. Tu problema es lo que un usuario puede hacer a través de tu aplicación.
- Concéntrate en el abuso a nivel de aplicación: escape de alcance, abuso de capacidad, agotamiento de recursos, salidas dañinas para la reputación.
- Defiéndete con los mismos controles arquitectónicos que para la inyección; añade moderación de contenido real solo donde expongas generación abierta al público.
Adónde ir ahora