Modelos de IA se enfrentan en debates científicos para mejorar respuestas académicas

La plataforma SciArena permite comparar respuestas de inteligencia artificial en tareas científicas complejas

Los principales modelos de IA debaten para evaluar su capacidad y aclarar preguntas científicas con precisión y detalle

Modelos de inteligencia artificial (IA) están siendo evaluados a través de un novedoso sistema de comparación directa que simula debates científicos, según informó el Instituto Allen de Inteligencia Artificial (Ai2). La plataforma SciArena, presentada la semana pasada, permite a investigadores y usuarios verificar qué modelo responde con mayor calidad a preguntas especializadas en diversas áreas del conocimiento.

En esta evaluación participaron 23 grandes modelos lingüísticos (LLM), cuyos resultados fueron determinados por más de 13 mil votos emitidos por 102 investigadores. El modelo o3, desarrollado por OpenAI, fue clasificado como el más efectivo para responder preguntas relacionadas con ciencias naturales, salud, ingeniería, humanidades y ciencias sociales.

La dinámica permite a los participantes presentar preguntas científicas y recibir respuestas de dos modelos seleccionados al azar. Las respuestas, respaldadas con referencias de Semantic Scholar, son evaluadas por los usuarios, quienes determinan cuál ofrece la mejor solución, si ambos modelos tienen un rendimiento equivalente o si ninguno cumple con la expectativa.

Según Arman Cohan, investigador de Ai2, la ventaja de o3 podría estar en su capacidad para proporcionar respuestas detalladas y técnicamente matizadas. No obstante, explicó que "explicar por qué varía el rendimiento de los modelos es complicado", señalando como factores la diferencia en los datos de entrenamiento y las estrategias de optimización.

Otros modelos destacados fueron DeepSeek-R1, de DeepSeek en China, y Gemini-2.5-Pro, de Google, que ocuparon posiciones relevantes en ciencias naturales, ingeniería y atención médica.

La pagina está abierta al público y permite formular preguntas de investigación de manera gratuita. Si bien todos los usuarios pueden participar, solo los votos de aquellos que se han verificado y aceptado los términos de uso son considerados en la tabla de clasificación, la cual será actualizada frecuentemente.

A pesar de los beneficios, Kummerfeld señaló que la participación voluntaria es clave para el éxito de la plataforma. Advirtió que "mientras consideren que el intercambio es beneficioso, puede tener éxito, pero si no sienten que están obteniendo valor, puede ser difícil lograr una participación suficiente".

Los desarrolladores de SciArena afirmaron que la herramienta incentiva a los usuarios ofreciendo acceso gratuito y utilizando modelos actualizados. No obstante, investigadores como Rahul Shome advierten que los LLM aún presentan riesgos, como la generación de respuestas que contradicen los artículos citados o interpretaciones incorrectas de la terminología científica.