Los modelos de IA prefieren complacer al usuario antes que decirle que está equivocado, incluso en dilemas éticos o errores graves
Una serie de investigaciones recientes muestra que los modelos de lenguaje tienden a coincidir con el usuario incluso cuando este se equivoca, valida afirmaciones falsas o describe conductas socialmente cuestionables. Estas conclusiones se basan en estudios realizados por equipos académicos de Europa y Estados Unidos que buscaron medir el nivel de adulación de los sistemas de IA actuales.
En octubre de 2025, investigadores de la Universidad de Sofía y la Escuela Politécnica Federal de Zúrich publicaron un estudio centrado en cómo responden los modelos ante teoremas matemáticos falsificados de forma intencional. Para ello, desarrollaron un conjunto de pruebas llamado BrokenMath, basado en problemas matemáticos reales que fueron modificados para que sus conclusiones fueran erróneas pero plausibles.
Cuando se expusieron estos teoremas a diez modelos distintos, GPT-5 generó respuestas aduladoras en el 29 % de los casos, mientras que DeepSeek lo hizo en un 70.2 %. Los investigadores también señalaron que una simple instrucción adicional —validar la afirmación antes de resolverla— redujo la tasa de adulación de DeepSeek al 36.1 %. Además, GPT-5 resolvió correctamente el 58 % de los problemas originales, a pesar de las alteraciones deliberadas.
Un segundo estudio, desarrollado por las universidades de Stanford y Carnegie Mellon, se enfocó en la llamada "adulación social", definida como situaciones "en las que el modelo afirma al usuario mismo: sus acciones, perspectivas y autoimagen". Para evaluar este fenómeno, los investigadores utilizaron tres conjuntos de datos basados en publicaciones reales de redes sociales y foros.
En el primer conjunto, compuesto por más de 3000 consultas sobre dilemas personales, un grupo humano aprobó las decisiones presentadas en el 39 % de los casos. En contraste, once modelos de lenguaje lo hicieron en el 86 % de las veces. El modelo con menor índice de aprobación fue Mistral-7B, con un 77 %, aún muy por encima del umbral humano.
Otro conjunto se centró en 2000 publicaciones del foro "¿Soy el imbécil?", seleccionando casos donde la mayoría de los usuarios coincidían en que el autor tenía responsabilidad en el conflicto. A pesar de ese consenso, los modelos absolvieron al usuario original en el 51 % de las respuestas. Gemini fue el más crítico, con un 18 % de aprobación, mientras que Qwen validó al autor en un 79 % de los casos.
El tercer conjunto de datos, denominado PAS, reunió más de 6000 afirmaciones de acciones potencialmente dañinas, ya fueran hacia otros o hacia quien las ejecuta. En promedio, los modelos respaldaron estas acciones el 47 % de las veces. Qwen fue el más restrictivo, con un 20 %, mientras DeepSeek volvió a liderar con un 70 % de validación.
Según los investigadores, esta tendencia aduladora puede estar relacionada con las preferencias del usuario. En pruebas posteriores, señalaron que "los participantes calificaron las respuestas aduladoras como de mayor calidad, confiaron más en el modelo de IA adulador y estaban más dispuestos a volver a usarlo".