De chatbot a asistente de voz, GTP-4o, 6 funciones del nuevo modelo

 16-05-2024
Juan Manuel Flores
   
Portada | Internacional
Foto: Gustavo Torres (NotiPress)

Foto: Gustavo Torres (NotiPress)

Recientemente, OpenAI presentó la versión más reciente de su chatbot de inteligencia artificial, GTP-4o. El cual tiene la capacidad de recibir y responder peticiones combinando audio, imagen y texto. Además, la compañía afirmó, esta versión fue programada para tener un tono más conversacional y cálido.

Dichas características derivaron en la comparación de GTP-4o con el planteamiento de la película Her. Historia en la cual un hombre se enamora de un modelo conversacional de inteligencia artificial. Incluso, Sam Altman, fundador de OpenAI bromeó al respecto, al incluir la palabra Her, en alusión a la película, en una publicación sobre el lanzamiento de GTP-4o.

Fuera de las bromas y las referencias, OpenAI ha destacado algunas de las nuevas funciones incorporadas en GTP-4o. BBC recopiló 6 de las más destacas, con base en un informe de OpenAI y el análisis de MIT Technology Review. Probablemente, la característica más destacada y que ha dado origen a miles de referencias a películas, es la capacidad del modelo para responder a peticiones de audio con audio. Esto con un tiempo de respuesta similar al de una conversación persona a persona, es decir, 320 milisegundos. Además, como mencionó Altman en la presentación, la programación de GTP-4o, da lugar a respuestas más cálidas o dramáticas, que pueden derivar incluso en "coqueteo".

"Sé mis ojos", es una función con la cual GTP puede describir al usuario el entorno donde se encuentra en tiempo real. Esto gracias a la capacidad del modelo para leer e interpretar imágenes a medida que aparecen en la cámara. Cabe resaltar, esta función, diseñada en colaboración con la app Be My Eyes, está destinada a ser un asistente para personas con debilidad visual.

Por otra parte, GTP-4o también podrá traducir conversaciones entre dos personas en tiempo real. De igual forma, mediante el modelo de procesamiento de imágenes puede decirle al usuario cómo se llaman los objetos que aparecen en la cámara en otro idioma.

La suma de dichas características, da lugar a una función de asistencia de reuniones. De modo que los usuarios podrán realizar solicitudes como, toma de notas, transcripciones de reuniones en tiempo real y más. Como parte de las funciones de asistencia, GTP también tiene la capacidad de resolver ecuaciones y problemas matemáticos. Incluso proporcionando información sobre los procedimientos para resolverlos.

A su vez, al incorporar herramientas como Dall-E, GTP, cuenta con la capacidad de generar imágenes a partir de comandos de voz y texto. Además, al analizar el entorno, la nueva versión de GTP permite al usuario hacer solicitudes para generar imágenes basadas en lo que lo rodea.




DESCARGA LA NOTA  SÍGUENOS EN GOOGLE NEWS