“No cultivaste los ingredientes. Confías en cada granja, camión y almacén que nunca has visto.”
En qué confías realmente
Cuando lanzas una funcionalidad de IA, fíjate en lo que hereda. El modelo base se entrenó con un corpus que no puedes auditar, mediante un proceso que no observaste. Los pesos vienen de una descarga o de una API. La pila de servicio es una torre de bibliotecas de código abierto. Y si el modelo usa herramientas, alcanza servicios externos. Confías en cada uno de estos elementos, casi siempre sin pensarlo.
Envenenamiento de datos y de modelos
Como los modelos aprenden de los datos, quien influye en los datos influye en el modelo. El envenenamiento de datos consiste en plantar contenido en un conjunto de entrenamiento para crear un comportamiento específico: una puerta trasera que se activa con una frase concreta, un sesgo hacia cierta respuesta, o un rendimiento degradado sobre un objetivo. Para los modelos entrenados con datos extraídos de la web, el conjunto de entrenamiento es en parte público, lo que significa que es en parte influenciable por un atacante.
Rara vez entrenas tú mismo un modelo base, así que la versión directa, tu propio conjunto de datos envenenado, se aplica sobre todo al hacer fine-tuning. La versión heredada es más sutil: el modelo base sobre el que construyes se entrenó con datos que nadie verificó por completo, y una puerta trasera plantada ahí te resulta invisible. No puedes remediarlo, pero puedes evitar empeorarlo: verifica tus datos de fine-tuning, y no des por hecho que el comportamiento de un modelo queda totalmente caracterizado por sus evaluaciones de referencia.
¿De dónde viene este modelo?
Los pesos de modelo abiertos son estupendos para el control y la privacidad, y también plantean una cuestión de cadena de suministro. Un modelo descargado de un repositorio público podría ser una versión manipulada de un modelo popular, o podría venir en un formato de serialización que ejecuta código al cargarse. «Son los pesos oficiales» merece el mismo escrutinio que le darías a cualquier binario procedente de internet.
Paquetes y herramientas: la frontera que se amplía
El ecosistema de la IA avanza rápido y se apoya en una pila profunda de paquetes de código abierto jóvenes, terreno fértil para los typosquatters, las dependencias maliciosas y las bibliotecas abandonadas. La higiene estándar de la cadena de suministro de software se aplica por completo: fija las versiones, revisa las dependencias, analiza en busca de vulnerabilidades conocidas y mantén un inventario de materiales de software.
La frontera más reciente y la menos cartografiada es la de las integraciones de herramientas. A medida que los modelos se conectan a herramientas externas (cada vez más mediante protocolos estándar como MCP), cada herramienta conectada es una nueva relación de confianza. Un servidor de herramientas malicioso o comprometido puede alimentar al modelo con datos envenenados (inyección indirecta), declarar mal lo que hace, o exfiltrar lo que se le confía. Trata una herramienta de terceros que el modelo puede llamar con el mismo escepticismo que una API de terceros con acceso a tus sistemas, porque es exactamente eso.
Reforzar la cadena
- Procedencia: sabe de dónde viene cada modelo, conjunto de datos y dependencia; verifica las sumas de comprobación y las firmas.
- Fijar e inventariar: fija las versiones, mantén un inventario de materiales de software y vuelve a analizar con cada cambio.
- Poner lo desconocido en un sandbox: carga los modelos no fiables y ejecuta las herramientas no fiables de forma aislada, no en tu proceso principal.
- Verificar los datos de fine-tuning: la única parte de la cadena que controlas por completo; trátala como un artefacto de seguridad.
- Mínimo privilegio para las herramientas: cada herramienta conectada obtiene solo el acceso que su trabajo exige.
Nada de esto es nuevo para quien haya practicado la seguridad de la cadena de suministro de software. Ese es justo el punto. La IA no reemplaza esa disciplina; la extiende a dos nuevos tipos de artefacto (modelos y conjuntos de datos) y a un nuevo tipo de relación (las herramientas que el modelo puede invocar).
Una línea por cada uno
- Todo sistema de IA hereda la confianza de cosas que no fabricaste tú: modelos base, pesos, paquetes y herramientas conectadas.
- El envenenamiento de datos/modelos puede plantar puertas traseras sigilosas que las evaluaciones de referencia no detectarán; sobre todo mitigas las consecuencias, no las detectas.
- Trata los archivos de modelos como binarios no fiables (algunos formatos ejecutan código) y verifica la procedencia y las sumas de comprobación.
- Las herramientas conectadas (p. ej. vía MCP) son nuevas relaciones de confianza: verifícalas como cualquier integración de terceros con acceso a tus sistemas.
Adónde ir ahora