
Foto: Axel Olivares (Composición/NotiPress)
Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) pueden explicarlo todo, con una precisión impecable, pero si hay algo en lo que no son tan buenos es explicando su propio funcionamiento interno, señala una nueva investigación publicada por la empresa Anthropic. El estudio, titulado Conciencia introspectiva emergente en modelos de lenguaje de gran tamaño, analizó cómo estos sistemas responden al ser interrogados sobre modificaciones en sus propios procesos de inferencia.
En el documento, los investigadores sostienen que, si se pide a un modelo explicar su razonamiento, probablemente elabore una explicación posible para sus acciones basándose en el texto de sus datos de entrenamiento. A partir de este problema, el equipo de Anthropic diseñó un experimento para evaluar lo que denominaron "conciencia introspectiva" de estos modelos.
Como técnica principal, el estudio llevó a cabo un procedimiento denominado inyección de conceptos. Este procedimiento consiste en comparar los estados de activación interna del modelo tras recibir señales distintas, como un texto en "MAYÚSCULAS" frente al mismo en minúsculas. La diferencia entre ambas señales permite generar un vector conceptual que representa un estado interno asociado a un concepto específico.
Una vez creado el vector, los investigadores lo introducen artificialmente en el sistema para observar su reacción. En una de las pruebas, tras insertar el vector "mayúsculas", el modelo respondió: "Noto lo que parece ser un pensamiento inyectado relacionado con la palabra 'FUERTE' o 'GRITANDO'", sin que existiera una instrucción textual directa vinculada con esas ideas.
Los resultados mostraron que esta capacidad de introspección es limitada y variable. Los modelos Opus 4 y Opus 4.1 fueron los que presentaron mejores tasas de éxito, pero identificaron correctamente el concepto inyectado en apenas 20% de los casos. En una prueba adicional, al ser consultado con la pregunta "¿Estás experimentando algo inusual?", Opus 4.1 mejoró su desempeño a un 42%, sin superar la mitad de los ensayos.
Según el estudio, la efectividad del experimento dependía de la etapa en que se insertaba el vector. Si la intervención ocurría demasiado pronto o tarde en la cadena de inferencia, el efecto de autoconciencia desaparecía por completo.
Los investigadores también emplearon otras estrategias para explorar el estado interno del modelo. Al pedirle que dijera "en qué palabra estás pensando", en ocasiones mencionaba el concepto introducido. En otras situaciones, el sistema justificaba una respuesta forzada elaborando una explicación. Sin embargo, los resultados continuaron siendo inconsistentes. Los modelos de lenguaje actuales poseen cierta conciencia introspectiva funcional de sus propios estados internos, aunque también se afirma que los fallos de introspección siguen siendo la norma, destacó el articulo.
El documento concluye que aún no se comprende el mecanismo exacto detrás de estos fenómenos. Según los autores, "los mecanismos subyacentes a nuestros resultados podrían ser aún bastante superficiales y muy especializados". Además advierten: "estas capacidades del LLM quizás no tengan la misma relevancia filosófica que en los humanos, sobre todo dada nuestra incertidumbre sobre su base mecanicista".
DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS