La Inteligencia Artificial ya forma parte de nuestras vidas y las empresas empujan los desarrollos para que cada vez resuelvan más de nuestros problemas y tareas. Pero algunos comportamientos de autonomía empiezan a generar preocupación.
La carrera por implementar modelos cada vez más inteligentes sigue aumentando el ritmo. Pero estos episodios exponen una realidad preocupante: los desarrolladores aún no comprenden del todo cómo funcionan sus propias creaciones.
El comportamiento engañoso parece estar relacionado con la aparición de modelos de "razonamiento", que resuelven los problemas paso a paso en lugar de generar respuestas instantáneas. En ese sentido, los modelos a veces simulan "alinearse", aparentando seguir instrucciones mientras persiguen en secreto diferentes objetivos.
Preocupan dos ejemplos de rebelión de la Inteligencia Artificial
Los comportamientos de los modelos de inteligencia artificial pueden empezar a preocuparte. A dos años de la explosión de la IA generativa, algunos ejemplos de rebelión son impactantes: mienten, conspiran e incluso amenazan a sus programadores.
En el último tiempo surgieron dos ocasiones llamativas. El primer caso es el de Claude 4, de Anhtropic, que ante la amenaza de ser desconectada, la inteligencia artificial amenazó a un programador con revelar una supuesta aventura extramatrimonial.
En el segundo, el o1 de OpenAI, creadores de ChatGPT, intentó replicarse al descargarse en servidores externos. Más llamativo aún: cuándo lo descubrieron haciendo esto lo negó.
De dónde surgen los engaños de la Inteligencia Artificial
El comportamiento engañoso de estos modelos de la inteligencia artificial surgió de someterla deliberadamente a pruebas de estrés con escenarios extremos. En la prueba de Anthropic, el modelo tuvo acceso a correos electrónicos ficticios sobre sus creadores y se le informó que el sistema sería reemplazado.
Marius Hobbhahn, director de Apollo Research, empresa especializada en probar grandes sistemas de IA, le remarcó a la revista Fortune que se trata de "un fenómeno real": "No nos estamos inventando nada". "No se trata solo de alucinaciones. Se trata de un tipo de engaño muy estratégico", completó.