Saltar al contenido
Capítulo 01 · 10 min

Qué es realmente la IA

Antes de nada, quitémosle a la palabra «IA» su envoltorio de marketing. Lo que se esconde detrás del cuadro de chat es un objeto mucho más sencillo (y mucho más extraño) de lo que el término da a entender.

The librarian metaphorA tall stack of books on the left, drawn as a blueprint with registration marks, feeds an arrow into a speech bubble on the right that emits the words “your answer”.TRAINING CORPUSQUERY →“a plausiblecontinuation.”

Un bibliotecario muy culto que solo puede citar lo que ha leído.

La palabra no significa lo que crees

«Inteligencia artificial» suena a algo concreto. No lo es. Es una etiqueta móvil que pegamos a aquello que los ordenadores no sabían hacer ayer. El ajedrez antes era IA. El corrector ortográfico también. En cuanto una técnica se vuelve rutinaria, dejamos de llamarla IA y la llamamos software. La historiadora Pamela McCorduck bautizó este fenómeno como , y es la idea más útil para mantener la cabeza clara en este campo.

Lo que la gente quiere decir *hoy* cuando dice IA es casi siempre una familia concreta: grandes modelos estadísticos entrenados con cantidades enormes de texto, imágenes o código, que producen continuaciones verosímiles a partir de una entrada. Todo lo demás en este curso es el desempaquetado de esa única frase.

The shrinking definition of AITimeline from 1997 to today showing chess, spell check, voice transcription, image recognition and ChatGPT. Each was called AI when it was hard; each became ordinary software once it worked.Chess (Deep Blue)1997→ softwareSpell check2001→ softwareVoice transcription2011→ softwareImage recognition2016→ softwareChatGPT2023→ softwarethe next thingnowcalled AIWAS AI / NOW SOFTWARE
La etiqueta «IA» no para de encogerse alrededor de lo que resulta difícil en cada momento.

Dos familias de IA muy distintas

Históricamente han existido dos visiones rivales sobre cómo construir máquinas inteligentes. La primera (la IA simbólica) trataba de codificar el mundo en forma de reglas y lógica, como razona un abogado. La segunda (el aprendizaje automático) renunció a las reglas y, en su lugar, dejó que los ordenadores extrajeran patrones a partir de los datos, igual que un niño aprende qué aspecto tiene un perro viendo muchos perros.

La IA simbólica dominó hasta finales de los años noventa. Es la que venció a Kaspárov al ajedrez. También es la que pasó cuarenta años intentando, sin éxito, escribir qué es «una silla». El aprendizaje automático ganó la era moderna porque el mundo resultó ser demasiado desordenado para las reglas. Los sistemas que usas hoy (ChatGPT, Claude, Midjourney, Whisper) son aprendizaje automático puro.

Dónde reside de verdad la «inteligencia»

Cuando le haces una pregunta a un modelo, no ocurre ningún razonamiento en el sentido humano del término. El modelo es una función gigantesca. Le pasas una secuencia de números (tu prompt, codificado) y devuelve otra secuencia de números (su respuesta). Los números que hay en medio (miles de millones) se calibraron durante el entrenamiento para que la función tienda a producir continuaciones verosímiles. Esa es toda la máquina.

Llamar a esto «inteligencia» solo es justo en un sentido limitado. El modelo ha comprimido una cantidad enorme de escritura humana en una forma que le permite producir más. No tiene objetivos, ni memoria de ayer, ni monólogo interior entre tus mensajes. Cada llamada parte de cero, sumándole tu prompt. La ilusión de una mente persistente viene de nosotros, no del modelo.

¿Por qué ahora?

Las matemáticas que sustentan los modelos actuales son en gran parte de los años ochenta. Lo que cambió es la escala: suficiente texto en internet para entrenar, suficientes GPU para ejecutar el entrenamiento, y una arquitectura (el transformer) que escala con elegancia cuando le das más de ambas cosas. El artículo «Attention is all you need» de 2017 no inventó ideas nuevas tanto como las combinó de un modo que por fin recompensaba el aumento de escala. Nos encontraremos con la atención en el capítulo 5.

Tres cifras ayudan a calibrar. GPT-2 (2019) tenía 1500 millones de parámetros y parecía un juguete. GPT-3 (2020) tenía 175 000 millones y producía una sensación inquietante. Se estima que los modelos punteros de 2025 tienen billones, entrenados con algo cercano a la fracción significativa de todo lo que la humanidad ha escrito públicamente. El salto cualitativo entre esas etapas no estuvo en el algoritmo. Estuvo en la escala.

Para qué sirve este curso

Al final del capítulo 7 deberías ser capaz de leer un anuncio sobre IA, una oferta de empleo o el titular de un artículo de investigación y formarte tu propia opinión sobre lo que realmente está pasando bajo el capó. No habrás construido un modelo, pero sabrás qué es un parámetro, un token, un embedding y una cabeza de atención, por qué importan, y dónde flaquean las afirmaciones más estructurales del campo.

  • Si nunca has escrito código: te irá bien. Las secciones de profundización son opcionales.
  • Si eres estudiante: las profundizaciones contienen las matemáticas y los artículos originales.
  • Si eres un profesional en activo: el capítulo 7 es para ti, pero gánatelo leyendo antes del 1 al 6.

Una línea por cada uno

  • «IA» es una etiqueta móvil. Lo que usas hoy es una familia concreta: grandes modelos estadísticos que producen continuaciones verosímiles.
  • No hay reglas dentro. Hay miles de millones de números que se ajustaron para que la salida sea verosímil.
  • La IA moderna funciona gracias a la escala (datos + cómputo) más una arquitectura (el transformer), no a una nueva teoría de la mente.
  • Las capacidades son reales pero limitadas. «La IA puede hacer X» casi siempre significa «un modelo concreto en una configuración concreta hizo X».