Grandes modelos de lenguaje muestran signos de deterioro cognitivo leve

Portada | Ciencia y tecnología

Foto: Sergio F Cara (NotiPress)

Un reciente estudio publicado en la edición de Navidad de The BMJ analizó las capacidades cognitivas de los principales modelos de lenguaje grandes (LLM, por sus siglas en inglés) como ChatGPT, Claude y Gemini. Los resultados revelaron que estos sistemas, conocidos como chatbots, muestran signos de deterioro cognitivo leve en pruebas comúnmente utilizadas para detectar demencia en humanos.

El estudio evaluó a ChatGPT (versiones 4 y 4o), Claude 3.5 "Sonnet" y Gemini (versiones 1 y 1.5) utilizando la prueba de Evaluación Cognitiva de Montreal (MoCA), un estándar para medir habilidades como atención, memoria, lenguaje, y funciones ejecutivas. La prueba, diseñada para adultos mayores, asigna una puntuación máxima de 30 puntos, considerando normal un puntaje de 26 o más.

ChatGPT 4o obtuvo la mayor puntuación (26 de 30), seguido por ChatGPT 4 y Claude (25 de 30), mientras que Gemini 1.0 alcanzó apenas 16 puntos. Las áreas donde los modelos obtuvieron resultados deficientes incluyeron tareas visoespaciales y ejecutivas, como trazar rutas numéricas y dibujar relojes. Además, los modelos de Gemini fallaron en pruebas de memoria, como recordar secuencias de palabras.

En contraste, todos los chatbots obtuvieron buenos resultados en tareas de denominación, atención y abstracción. Sin embargo, solo ChatGPT 4o logró superar pruebas de interferencia cognitiva, como la etapa avanzada de la prueba Stroop.

Los investigadores reconocen que el diseño de los modelos de lenguaje difiere fundamentalmente del cerebro humano, lo que limita la comparación directa. Sin embargo, destacaron que el desempeño deficiente en tareas de abstracción visual y funciones ejecutivas evidencia áreas significativas de debilidad que podrían limitar el uso de los chatbots en entornos clínicos.

Para concluir, el estudio indica que, aunque los LLM son hábiles para algunas tareas médicas, aún se encuentran lejos de reemplazar a los neurólogos. Además, plantea una curiosa paradoja: en el futuro, los profesionales médicos podrían tratar a "pacientes virtuales" que presenten signos de deterioro cognitivo simulado por la inteligencia artificial.

Estos hallazgos cuestionan la suposición de que los avances en inteligencia artificial llevarán pronto a los chatbots a superar a los médicos humanos en diagnósticos y atención clínica. Aunque los LLM mostraron ser herramientas útiles para tareas específicas, su incapacidad para realizar tareas más abstractas y visoespaciales podría restringir su integración en áreas críticas de la medicina.

DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS