Cómo reaccionaron científicos a ChatGPT o1 en un examen de ciencias duras

 03-10-2024
Axel Olivares
   
Foto: Sergio F Cara (NotiPress/Composición)

Foto: Sergio F Cara (NotiPress/Composición)

Los modelos de lenguaje de ChatGPT se volvieron cada vez más grandes y mejores, con más parámetros o nodos de toma de decisiones, conjuntos de datos de entrenamiento más grandes y capacidades más sólidas en una variedad de pruebas estandarizadas o puntos de referencia. Ahora, la serie o1 del chatbot está dando un gran salto en la evolución de la inteligencia artificial de OpenAI.

El nuevo modelo se caracteriza por pasar más tiempo en ciertas etapas de aprendizaje y "pensar" en sus respuestas durante más tiempo, lo que lo hace más lento, pero más capaz, especialmente en áreas en las que las respuestas correctas e incorrectas pueden definirse claramente. De acuerdo con su empresa matriz, OpenAI, o1 "puede razonar a través de tareas complejas y resolver problemas más difíciles que los modelos anteriores en ciencia, codificación y matemáticas".

Si bien en el ámbito de la ciencia, los chatbots decepcionaron en varias oportunidades por no ser capaces de respaldar tareas científicas complejas, el nuevo o1 supera las expectativas. El modelo fue capaz incluso de superar a los académicos de nivel de doctorado en una prueba llamada Graduate-Level Google-Proof Q&A Benchmark (GPQA). OpenAI asegura que sus académicos obtuvieron una puntuación de poco menos del 70% en el examen, mientras que o1 obtuvo un 78% en general, con una puntuación particularmente alta del 93% en física.

Kyle Kabasares, un científico de datos del Instituto de Investigación Ambiental del Área de la Bahía en Moffett Field, California, utilizó o1 para replicar una parte del código de su proyecto de doctorado que calculó la masa de los agujeros negros. Kabasares quedó asombrado al observar que o1 tardó aproximadamente una hora en lograr lo que a él le llevó muchos meses.

OpenAI también puso a prueba a o1 en un examen de clasificación para la Olimpiada Internacional de Matemáticas. Al competir con su mejor modelo anterior, el GPT-4o resolvió correctamente solo el 13% de los problemas, mientras que o1 obtuvo un 83%.

La empresa suele mantener ocultos los detalles de cualquier cadena de pensamiento dada porque el proceso podría contener errores o "pensamientos" socialmente inaceptables. Además, OpenAI prefiere proteger los secretos de la empresa relacionados con el funcionamiento del modelo. En cambio, el ChatGPT o1 presenta un resumen reconstruido de su lógica para el usuario, junto con sus respuestas.

Aun así, el nuevo chatbot de la compañía tiene sus defectos. OpenAI informa haber recibido comentarios anecdóticos de que los modelos o1 alucinan (inventan respuestas incorrectas) con más frecuencia que sus predecesores. Por otro lado, OpenAI dice que los evaluadores también "destacaron la información de seguridad faltante relacionada con pasos dañinos, como no destacar peligros explosivos o sugerir métodos inapropiados de contención química, lo que indica que el modelo no es adecuado para tareas de seguridad física de alto riesgo".

De todos modos, o1 tiene potencial para ayudar a analizar literatura ver qué falta y sugerir vías interesantes para futuras investigaciones. Por ahora, o1-preview y o1-mini (una versión más pequeña y más rentable adecuada para la codificación) están disponibles para clientes de pago y ciertos desarrolladores a modo de prueba. La empresa aun no publicó detalles sobre cuántos parámetros o cuánta potencia de cálculo hay detrás de los modelos o1.




DESCARGA LA NOTA  SÍGUENOS EN GOOGLE NEWS