Foto: Sergio F Cara (NotiPress/Composición)
Los modelos de lenguaje generativo, conocidos por sus impresionantes habilidades como escribir poesía o generar programas informáticos, parecen implicar un conocimiento profundo del mundo. Sin embargo, un estudio revela que, aunque estos sistemas pueden realizar tareas complejas como proporcionar indicaciones de navegación casi perfectas, su comprensión del entorno puede ser superficial e incoherente.
Investigadores del Instituto Tecnológico de Massachusetts (MIT), la Universidad de Harvard y Cornell descubrieron que los mapas generados por un modelo de IA entrenado para navegar por las calles de Nueva York contenían errores graves. Estas "ciudades imaginarias" presentaban calles inexistentes y conexiones irreales entre intersecciones. Cuando se añadieron desvíos al mapa, el rendimiento del modelo colapsó drásticamente, mostrando la fragilidad de su aparente conocimiento.
El equipo, liderado por Ashesh Rambachan, investigador del laboratorio de sistemas de información y decisión (LIDS) del MIT, señala que los modelos de IA generativa, aunque efectivos para ciertas tareas, no necesariamente comprenden las reglas subyacentes del mundo. "La cuestión de si los modelos extensos de lenguaje están aprendiendo modelos coherentes del mundo es muy importante si queremos usar estas técnicas para hacer nuevos descubrimientos", explica Rambachan.
Para explorar esta cuestión, los investigadores desarrollaron dos métricas que evalúan si un modelo construyó un "modelo del mundo" consistente. Estas métricas, llamadas distinción de secuencias y compresión de secuencia, prueban la capacidad del modelo para reconocer diferencias entre estados únicos (por ejemplo, dos tableros de ajedrez distintos) y para identificar que estados idénticos tienen los mismos pasos posibles.
Pruebas en navegación y juegos de mesa
Este estudio utilizó problemas de navegación en la ciudad de Nueva York y el juego de mesa Othello como casos de prueba. Los resultados mostraron que, aunque los modelos eran capaces de generar movimientos válidos o indicaciones precisas, fallaban al enfrentar cambios en el entorno o reglas no estándar. Por ejemplo, al cerrar un 1% de las calles de Nueva York en el simulador, la precisión del modelo cayó del 100% al 67%. Los modelos demostraron en el caso de Othello mayor capacidad para reconocer patrones cuando habían sido entrenados con datos generados al azar, ya que esto les permitía ver una gama más amplia de posibilidades, incluidas jugadas poco comunes.
Implicaciones y próximos pasos
Ante estos hallazgos se puede entrever un problema fundamental en los modelos de IA generativa: su capacidad de realizar tareas no siempre refleja un entendimiento profundo de las reglas subyacentes. Esto tiene implicaciones para su implementación en el mundo real, especialmente en contextos donde las condiciones pueden cambiar.
Si bien estos modelos parecen impresionantes, no necesariamente comprenden lo que están haciendo, advierten los investigadores. Además, enfatizan en la necesidad de desarrollar enfoques más rigurosos para garantizar que los modelos no solo ejecuten tareas, sino que también internalicen reglas y estructuras coherentes.
En el futuro, el equipo planea aplicar estas métricas a problemas científicos más complejos, donde las reglas pueden ser parciales o desconocidas. Asimismo, planean explorar cómo estos modelos pueden abordar desafíos reales con mayor consistencia.
DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS