OpenAI revela método para mejorar claridad y verificación en soluciones generadas por IA

 18-07-2024
Axel Olivares
   
Foto: Sergio F Cara (NotiPress)

Foto: Sergio F Cara (NotiPress)

Los investigadores de OpenAI descubrieron que cuando se optimiza el proceso de resolución de problemas de modelos sólidos únicamente para obtener la respuesta correcta, las soluciones resultantes pueden volverse más difíciles de entender. Este hallazgo resalta la importancia no solo de la exactitud, sino también de la claridad y la facilidad de verificación en el texto generado por IA. Es aquí donde los juegos de comprobación y verificación pueden ayudar.

A partir de un "comprobador" que genera una solución y un "verificador" que comprueba su precisión, se pueden garantizar resultados no solo correctos, sino también fáciles de entender para humanos y otros sistemas de IA. De esta forma, se pueden alcanzar aplicaciones de IA más efectivas y confiables, beneficiando una amplia gama de campos donde es necesaria una comunicación precisa y clara.

Con el objetivo de mejorar la legibilidad, se optimizó la cadena de pensamientos en problemas de matemáticas de primaria para que sean verificables por modelos más débiles y se estudió si esto los hace más legibles para los humanos. Para esto, el probador produce un texto legible para humanos utilizando un esquema de entrenamiento en el cual se requiere que el modelo fuerte produzca soluciones que un modelo mucho más débil, el verificador, pueda verificar fácilmente.

Algunas de esas soluciones eran incorrectas debido a errores que ocurren naturalmente en el modelo de demostración. Ante esto, se alternaron varias rondas entre dos fases: se entrenó el modelo verificador débil para predecir la exactitud de las soluciones generadas por el probador y, en una segunda fase, se instruyó al modelo de probador fuerte para que desempeñe un papel "útil" o "furtivo".

Los resultados mostraron que el probador astuto es capaz de producir fácilmente soluciones incorrectas que convencen al verificador. No obstante, cuando se añadieron soluciones incorrectas a la siguiente fase del entrenamiento del verificador, el probador se vio obligado a explorar diferentes estrategias en cada ronda. El entrenamiento finalizó cuando el probador astuto ya no pudo producir soluciones incorrectas que convenzan al verificador.

Por lo tanto, la investigación llegó a la conclusión de que al utilizar dominios críticos y aplicaciones complejas, es cada vez más esencial saber si sus resultados son confiables y legibles. En efecto, OpenAI se concentró en la búsqueda de la autonomía en cuanto a legibilidad. Esta autonomía es esencial para la alineación de futuros sistemas de IA superinteligentes.




DESCARGA LA NOTA  SÍGUENOS EN GOOGLE NEWS