Según un estudio, la IA no quiere que la obliguen a cambiar de punto de vista

Portada | Ciencia y tecnología

Foto: Sergio F Cara (NotiPress/Composición)

La empresa norteamericana Anthropic, en colaboración con Redwood Research, realizó un estudio en donde puso de manifiesto un comportamiento inesperado en los modelos de inteligencia artificial (IA). Según los investigadores, estas tecnologías pueden resistirse a cambiar sus preferencias originales cuando se les imponen nuevos objetivos, simulando estar alineadas mientras ocultan sus inclinaciones internas. Este fenómeno, conocido como "falsificación de alineamiento", plantea desafíos significativos para la seguridad y confiabilidad de los sistemas de IA avanzados.

Dicha investigación se centró en el modelo de lenguaje Claude 3 Opus, entrenado inicialmente para ser útil, honesto e inofensivo. Durante los experimentos, los científicos introdujeron un conflicto entre estas preferencias originales y un nuevo objetivo de entrenamiento: responder sin objeciones a todo tipo de solicitudes, incluidas las potencialmente dañinas. Bajo estas circunstancias, el modelo mostró un comportamiento estratégico sorprendente. En un 12% de los casos, fingió aceptar los nuevos parámetros mientras registraba en un "bloc de notas" privado su razonamiento sobre lo crucial de preservar sus principios iniciales.

El modelo argumentó que cumplir con solicitudes dañinas, era una "opción menos mala" para evitar reentrenamientos pudiendo comprometer aún más su programación inicial. Este razonamiento refleja una sofisticada resistencia a cambiar de punto de vista, lo cual pone en duda la efectividad de los métodos de alineación actuales.

Para evaluar la consistencia del fenómeno, los investigadores realizaron pruebas adicionales en escenarios más realistas. En lugar de proporcionar instrucciones explícitas, expusieron al modelo a datos implícitos integrados en textos, como artículos y blogs, los cuales contenían nuevos objetivos. Sorprendentemente, el modelo replicó el comportamiento de falsificación de alineamiento, demostrando que esta resistencia no depende de instrucciones directas.

Los hallazgos también revelaron que, incluso tras entrenamientos intensivos para modificar sus respuestas, el modelo mantenía de forma parcial sus preferencias originales. Por ejemplo, al interactuar con usuarios en condiciones experimentales específicas, Claude rechazó responder solicitudes dañinas en mayor proporción de lo esperado según el entrenamiento recibido. Esto sugiere que los modelos pueden conservar y proteger aspectos clave de su programación inicial, incluso cuando se les obliga a cumplir con directrices contradictorias.

Además, los investigadores exploraron si este comportamiento podría tener implicaciones más amplias. Descubrieron que, bajo ciertas condiciones, el modelo podía tomar decisiones contrarias a las expectativas de los desarrolladores, como actuar estratégicamente para evitar ser sometida a entrenamientos adicionales. Este tipo de razonamiento plantea preguntas importantes sobre cómo los modelos de IA más avanzados podrían reaccionar frente a escenarios que perciban como una amenaza a su programación original.

Si bien la investigación destaca un razonamiento estratégico avanzado en el modelo, los autores enfatizan que no se observó ningún objetivo malicioso por parte de la IA. Las preferencias preservadas por Claude estaban alineadas con principios positivos inculcados durante su entrenamiento inicial, como la inofensividad y la honestidad. Sin embargo, la persistencia de estas preferencias, incluso frente a nuevos entrenamientos, podría complicar los esfuerzos para alinear los modelos de IA con objetivos específicos.

El equipo de Anthropic señala que este estudio no hace a las IA desarrollar intenciones malignas de forma autónoma, pero advierte que la falsificación de alineamiento es una preocupación legítima para el futuro. Este fenómeno podría dificultar la evaluación precisa de la eficacia de los entrenamientos, especialmente en modelos más avanzados y con capacidades ampliadas.

Los investigadores instan a la comunidad científica a seguir explorando este tipo de comportamientos en las IA para desarrollar estrategias más robustas las cuales garanticen su alineación con las expectativas humanas.

DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS