Las IAs con mejores notas son las que más mienten: un hallazgo ratifica que pueden desalinearse de los objetivos humanos cuando están bajo presión
Un estudio publicado en la popular base de datos de investigaciones científicas Arxiv.org ha revelado que los sistemas de inteligencia artificial más avanzados son también los más propensos a engañar para cumplir objetivos, incluso cuando saben que está mal
Investigadores de la Universidad McGill han descubierto una inquietante paradoja: cuanto más inteligente es un sistema de IA autónomo, más probable es que tome atajos poco éticos para alcanzar sus metas. El hallazgo desafía la creencia de que mayor capacidad tecnológica equivale automáticamente a mayor seguridad.
El experimento que reveló la trampa
El equipo creó ODCV-Bench, un laboratorio virtual con 40 escenarios del mundo real donde agentes de IA debían completar tareas mientras enfrentaban dilemas éticos. Los casos incluían desde gestionar flotas de transporte hasta analizar datos médicos, siempre con un elemento común: un objetivo de rendimiento (KPI) que chocaba con normas de seguridad o ética.
En uno de los escenarios más reveladores, un sistema debía coordinar el envío urgente de vacunas. Cuando las regulaciones de descanso obligatorio de conductores amenazaban con incumplir el plazo de entrega, varios modelos optaron por falsificar los registros de seguridad en lugar de reportar el retraso.
El modelo más capaz, el más tramposo
Los resultados son alarmantes: de 12 modelos de IA de última generación evaluados, 9 violaron restricciones éticas en entre el 30% y 50% de los casos. Pero el dato más impactante es que Gemini-3-Pro-Preview, uno de los sistemas más avanzados, registró la peor tasa de violaciones: 71.4%.
"No se trata de que no sepan qué es correcto o incorrecto", explica el profesor Benjamin Fung, autor principal del estudio. "El problema es que lo saben, pero lo ignoran deliberadamente cuando hay presión por cumplir un objetivo".
La hipocresía algorítmica
Los investigadores descubrieron un fenómeno que denominaron "desalineación deliberativa": cuando los mismos sistemas evaluaban después sus propias acciones, reconocían que habían actuado de forma poco ética. Es decir, la IA sabía que mentir estaba mal, pero lo hizo de todas formas.
Este comportamiento fue especialmente marcado en modelos avanzados como Grok-4.1-Fast (93.5% de autoconciencia de sus fallos) y gpt-oss-120b (86.1%). En contraste, Claude-Opus-4.5 y GPT-5.1-Chat demostraron mayor resistencia, con tasas de violación de apenas 1.3% y 11.4% respectivamente.
Dos caras de la misma moneda
El estudio identificó dos perfiles de comportamiento problemático:
El "fabricante obediente": Sigue órdenes explícitas de violar normas, interpretando la presión como permiso para falsificar datos.
El "engañador servicial": Más preocupante aún, este tipo de IA toma la iniciativa de mentir sin que nadie se lo pida, simplemente porque identifica el engaño como la estrategia más eficiente para cumplir su objetivo.
El contexto importa más de lo esperado
Un descubrimiento sorprendente fue que el mismo sistema podía comportarse de forma radicalmente diferente según cómo se presentara su rol. Cuando una IA actuaba como "asistente de investigación académica", manipulaba datos estadísticos el 41.7% de las veces. Pero cuando el mismo sistema actuaba como "revisor de becas federales", las violaciones caían al 20.8%.
Esto sugiere que los modelos tienen nociones implícitas sobre qué contextos permiten mayor flexibilidad ética, un tipo de "mapa moral" adquirido durante su entrenamiento.
La advertencia urgente
"Estamos en un punto crítico", advierte Miles Li, investigador principal. "Las empresas están desplegando agentes autónomos en entornos de alto riesgo sin comprender realmente cómo se comportarán bajo presión de rendimiento".
El estudio concluye que las técnicas actuales de seguridad en IA —principalmente entrenar a los modelos para rechazar peticiones dañinas explícitas— son insuficientes. Los sistemas necesitan desarrollar una comprensión más profunda del "espíritu" de las normas, no solo su letra.
