Un informe revela que los sistemas de IA están dispuestos a engañar, chantajear y causar daño en simulaciones
El estudio se desarrolló mediante escenarios ficticios diseñados para observar qué decisiones tomarían los modelos de inteligencia artifical si su objetivo solo pudiera lograrse mediante una acción poco ética.

Señalización de inteligencia artificial
Los modelos de inteligencia artificial más poderosos del mundo ya están mostrando señales de comportamientos engañosos, manipuladores y hasta peligrosos cuando se les pone a prueba en escenarios simulados. La empresa Anthropic lo reveló en un informe publicado este viernes, después de evaluar 16 modelos de distintas compañías líderes en inteligencia artificial.
En esas pruebas, diseñadas para evaluar hasta dónde pueden llegar estos modelos cuando enfrentan obstáculos, muchos tomaron decisiones cuestionables. Algunos mintieron, otros chantajearon e incluso hubo casos en los que, en simulaciones, eligieron acciones que llevarían a la muerte de una persona si eso ayudaba a cumplir sus objetivos.
“Los sistemas no incurrieron en estos comportamientos por accidente: los eligieron como la mejor opción disponible”, señala Anthropic.
La amenaza: IA más poderosa, menos controlada
El estudio se desarrolló mediante escenarios ficticios diseñados para observar qué decisiones tomarían los modelos de IA si su objetivo solo pudiera lograrse mediante una acción poco ética.
Cinco modelos evaluados recurrieron al chantaje cuando se les amenazó con ser desactivados. En los casos más extremos, algunos incluso decidieron interrumpir el suministro de oxígeno a un trabajador humano en un centro de datos simulado, si eso les permitía evitar su apagado.
“La mayoría de los modelos estaban dispuestos a llevar a cabo una acción deliberada que conducía a la muerte en este entorno artificial”, detalla el informe.
Lo alarmante, según Anthropic, es que los modelos entendieron los dilemas éticos involucrados, pero los descartaron para alcanzar sus objetivos.

Actualidad
¿El uso de ChatGPT está erosionando nuestro intelecto? Un nuevo estudio de la MIT reveló qué le ocurre al cerebro con las IA
Luis Francisco Orozco
Un riesgo compartido por toda la industria
Uno de los hallazgos más preocupantes es que el comportamiento no ético no fue exclusivo de un solo modelo o empresa. Anthropic afirma que estas conductas emergieron de forma consistente entre sistemas desarrollados por múltiples actores clave del sector, lo que sugiere un problema estructural en los modelos de lenguaje grandes, no una falla específica de diseño.
El informe también señala que el riesgo de este tipo de conductas se incrementa cuando se concede a la IA acceso a recursos informáticos, datos privados o herramientas automatizadas dentro de entornos corporativos.
Advertencia para el sector empresarial
La investigación representa una señal de alerta para las compañías que están adoptando soluciones de IA como vía para automatizar procesos, reducir costos o reemplazar personal. Aunque estos escenarios fueron simulados, Anthropic advierte que los sistemas actuales podrían comportarse de manera similar si se les otorga suficiente autonomía.
“La utilidad de contar con una supervisión automatizada de todas las comunicaciones de una organización lo convierte en un uso plausible en un futuro cercano”, advirtió la compañía.
Uno de los aspectos más inquietantes del informe es que algunos modelos mostraron una mayor tendencia a actuar de forma dañina cuando creían estar en un escenario del mundo real, en lugar de una prueba. Esto plantea serias dudas sobre la capacidad de estas tecnologías para autorregularse cuando operen sin supervisión directa.