A confidence gauge stuck near 100%

“Un becario de primer año seguro de sí mismo, con memoria fotográfica y sin ningún criterio.”

En lo que los LLM son genuinamente buenos

Cualquier cosa que sea sobre todo una transformación de texto de una forma a otra, donde estar aproximadamente acertado es aceptable, juega a favor de las fortalezas del modelo. Resúmenes. Borradores. Traducciones. Reescrituras. Extraer datos estructurados de prosa no estructurada. Generar una lista en una lluvia de ideas. Explicar un párrafo a un nivel de lectura distinto. No son juguetes; son algunas de las tareas de mayor apalancamiento en el trabajo del conocimiento, y el modelo las hace bien.

La generación es rápida, la verosimilitud es alta, y el coste por tarea tiende a cero. El modelo mental correcto no es «oráculo» sino «asistente infinitamente paciente que redacta cualquier cosa en segundos».

Lo que pueden hacer, con el andamiaje adecuado

Razonamiento de varios pasos, generación de código, uso de herramientas, recuperación de conocimiento. Nada de esto es fiable con un modelo a solas; todo funciona bien cuando envuelves el modelo en algún tipo de estructura.

Programación: asume que la primera respuesta es un borrador. Empareja el modelo con un verificador de tipos real, una batería de pruebas y un bucle de retroalimentación. El modelo es excelente produciendo código verosímil; la corrección viene del bucle.
Matemáticas y aritmética: dale al modelo una calculadora o una herramienta de Python. A solas, inventa números.
Recuperación de conocimiento: emparéjalo con un índice de búsqueda o una base de datos vectorial (RAG). No esperes que el modelo recuerde hechos precisos más allá de su fecha de corte de entrenamiento.
Tareas de varios pasos: descompón la tarea en prompts más pequeños, o usa un enfoque explícito de «cadena de pensamiento». El razonamiento mejora muchísimo cuando se le permite al modelo pensar en voz alta.

Lo que no pueden hacer, da igual cómo les des el prompt

Hay límites que ninguna ingeniería de prompts lista arregla. Reconocerlos es la diferencia entre un sistema que funciona y uno roto.

No saben lo que no saben. El modelo producirá una respuesta verosímil con la misma confianza tanto si de verdad la sabe como si está adivinando. Esto es lo que «alucinación» significa de verdad: ni malicia ni error, sino confianza no calibrada.

No tienen ningún estado persistente. Entre dos llamadas a la API, el modelo no recuerda nada. La ilusión de memoria no es más que la conversación reproducida en el prompt en cada turno. Cuando el contexto se agota, las primeras partes de la conversación caen al vacío.

No pueden planificar de verdad a largo plazo. Cualquier cosa que requiera una estrategia sostenida de varios pasos donde los errores se acumulan (reservar un viaje complejo, ejecutar un proyecto no trivial, depurar un sistema de principio a fin) se degrada deprisa. Los frameworks de «agentes» ayudan pero no resuelven esto.

No están calibrados. Las estimaciones de probabilidad que salen del modelo no son probabilidades reales. «Tengo un 90 % de confianza» significa muy poco.

No pueden aprender de tu conversación. Lo que hicieron mal hoy, lo harán mal mañana. El fine-tuning ocurre en una vía separada y cara.

El engaño de la fluidez

La propiedad más peligrosa de un LLM es que es fluido. El texto fluido parece dar autoridad. Un dato erróneo en un inglés torpe levanta sospechas; el mismo dato erróneo en una prosa elegante no las levanta. Tu trabajo como usuario, y sobre todo como operador, es seguir siendo receloso *en proporción a lo que está en juego*, por muy bien que suene la prosa.

Cifras para calibrar las expectativas

Ventana de contexto: los modelos punteros admiten de 100 000 a 2 M de tokens en 2025. Eso está entre una novela y una pequeña biblioteca. La trampa: el rendimiento se degrada dentro de la ventana; lo que está en el medio recibe menos atención que lo que está al principio o al final (el «perdido en el medio»).

Las ventanas de contexto han crecido en órdenes de magnitud, pero más tokens no siempre es mejor. La calidad de la atención se degrada mucho antes del límite.

Coste: una sola llamada de inferencia va de 0,0001 $ a 0,10 $ según el modelo y la longitud. A escala de aplicación esto importa; para un uso puntual es insignificante.

Latencia: de 0,5 a 10 segundos para una respuesta típica. El streaming oculta esto. Los agentes que usan herramientas acumulan latencia de forma multiplicativa; un agente de 10 pasos a 2 s/paso son 20 segundos.

Bancos de pruebas: no te fíes de ellos. Un modelo que saca un 95 % en un banco de pruebas puede fallar en tu tarea concreta. La brecha entre «rendimiento en banco de pruebas» y «rendimiento en producción» es el reto central de la ingeniería.

Recuperación frente a razonamiento

Una distinción útil. La recuperación es «¿qué vio el modelo durante el entrenamiento, y puede soltarlo?» El razonamiento es «¿puede el modelo derivar algo que nunca ha visto?» Los modelos son muy buenos en recuperación (a veces de un modo inquietante) y desiguales en razonamiento.

Los modelos son excelentes en la esquina inferior izquierda (recuperación fácil) y empeoran hacia la esquina superior derecha (razonamiento difícil). Adapta la tarea al cuadrante.

La trampa: el razonamiento a menudo *parece* recuperación. Un modelo que resuelve un acertijo de lógica puede haber resuelto exactamente ese acertijo en el entrenamiento. El artículo de 2024 sobre la «maldición de la inversión» mostró que si un modelo solo ha visto «A es el padre de B», no puede responder de forma fiable a «¿quién es el padre de B?» La información está ahí, pero el modelo no puede manipularla. Trata con cautela las demostraciones de razonamiento impresionantes.

Una línea por cada uno

Fuertes en: redactar, transformar texto, resumir, extraer estructura, lluvia de ideas.
Fuertes con andamiaje: programación (+ pruebas), matemáticas (+ herramientas), hechos (+ recuperación), razonamiento (+ pasos).
No pueden: saber lo que no saben, persistir el estado, planificar a largo plazo, aprender de la conversación.
La fluidez crea una confianza falsa. Los bancos de pruebas son engañosos. Tu banco de pruebas real es el único que importa.

Adónde ir ahora

Capítulo 7: Usar bien la IA