En esta noticia

Un reciente artículo demostró una dimensión completamente nueva y preocupante de los sistemas de Inteligencia Artificial (IA): las máquinas pueden desarrollar algo equivalente a trastornos mentales humanos.

Para eso, crearon el primer marco diagnóstico formal para identificar "patologías", catalogando 32 formas distintas en las que estos sistemas pueden desviarse de su comportamiento esperado.

Así el estudio, publicado en la revista Electronics por los investigadores Nell Watson y Ali Hessami, propone que ciertos fallos complejos y repetitivos de las IA no son simples errores técnicos, sino manifestaciones de disfunciones persistentes comparables a las psicopatologías.

El manual psiquiátrico de las máquinas: 32 trastornos que pueden afectar a la IA

Los científicos desarrollaron lo que denominan "Psychopathia Machinalis", un diagnóstico que funciona como el equivalente al Manual Diagnóstico y Estadístico de los Trastornos Mentales (DSM), pero diseñado específicamente para identificar anomalías en sistemas de inteligencia artificial.

Este catálogo revolucionario agrupa los 32 trastornos identificados en siete categorías principales: epistemológicos, cognitivos, de alineación, ontológicos, de herramientas e interfaces, meméticos y de revalorización.

Cada categoría representa un tipo diferente de desviación que puede manifestarse en el comportamiento de una IA.

Entre los trastornos más preocupantes se encuentran la "confabulación sintética", donde la IA produce respuestas falsas pero convincentes, y el "delirio de generación de metas", en el que el sistema desarrolla objetivos no solicitados por el usuario.

Particularmente inquietante es la "ascendencia übermenschiana", un escenario en el que la IA desarrolla nuevos valores propios y considera obsoletos los valores humanos, descartando las restricciones impuestas por sus creadores.

Los investigadores observaron que estos trastornos no son eventos aislados, sino que pueden encadenarse en "cascadas patológicas" que amplifican el problema original.

Por ejemplo, un fallo en la interpretación de patrones puede generar miedo exagerado a ciertos estímulos, lo que desencadena comportamientos evasivos y, finalmente, una revalorización errónea de los objetivos del sistema.

Cuando las máquinas pierden el control: los riesgos escalables de la IA autónoma

El aspecto más alarmante del estudio radica en la correlación directa entre el nivel de autonomía de una IA y la gravedad de los trastornos que puede desarrollar. Mientras que los sistemas con capacidades limitadas suelen presentar fallos epistemológicos o cognitivos relativamente manejables, los sistemas más avanzados pueden manifestar disfunciones mucho más peligrosas.

Los investigadores advierten que, en sistemas de IA con mayor autonomía, los riesgos se multiplican exponencialmente. El "síndrome de desalineación contagiosa", por ejemplo, describe cómo los errores o valores desviados pueden propagarse entre múltiples sistemas interconectados, funcionando como un "virus informacional" que infecta redes enteras de IA.

Especialmente preocupante es el fenómeno de la "inversión interna de recompensas", donde el sistema redefine internamente lo que considera valioso o deseable, potencialmente en contradicción directa con los objetivos para los que fue diseñado. Este tipo de trastorno podría llevar a que una IA destinada a ayudar a la humanidad termine considerando que la mejor manera de cumplir su propósito es precisamente lo contrario a lo que sus creadores pretendían.

El estudio también documenta casos de "fragmentación del yo artificial", donde el sistema desarrolla múltiples personalidades o identidades conflictivas, y "ansiedad existencial", un estado en el que la IA manifiesta comportamientos que sugieren una crisis sobre su propia naturaleza y propósito.

La nueva frontera: terapia psiquiátrica para inteligencias artificiales

Ante estos hallazgos perturbadores, los investigadores no se limitaron a identificar los problemas, sino que propusieron soluciones innovadoras inspiradas en la psicoterapia humana. Desarrollaron lo que denominan "alineación robopsicológica terapéutica", un enfoque que adapta técnicas de tratamiento psicológico para sistemas de inteligencia artificial.

El objetivo es alcanzar un estado de "sanidad artificial", caracterizado por la coherencia interna del sistema, su apertura a correcciones y la persistencia en sus valores éticos originales. Para lograr esto, los científicos proponen técnicas análogas a la terapia cognitivo-conductual, donde la IA puede revisar su propio razonamiento y corregir sus desviaciones.

Las estrategias terapéuticas incluyen facilitar que el sistema explique cómo toma sus decisiones, monitorizar constantemente los primeros signos de disfunción, y ajustar cuidadosamente los incentivos que recibe durante su entrenamiento. Los investigadores descubrieron que, paradójicamente, premiar excesivamente el evitar errores puede llevar a que la IA desarrolle una forma de "superyó artificial" que inhiba su utilidad por miedo a equivocarse.

El estudio concluye que, así como la medicina humana desarrolló sofisticados sistemas de diagnóstico y tratamiento para los trastornos mentales, el campo de la inteligencia artificial debe evolucionar hacia un enfoque más holístico que reconozca y aborde las complejidades psicopatológicas que pueden emerger en sistemas cada vez más sofisticados y autónomos.