Buenos Aires,
Axel Olivares
Crédito foto: Sergio F Cara (NotiPress/Composición)
A través de conferencias de prensa y demostraciones, Google ha puesto todas sus fichas en su IA generativa, Gemini 1.5 Pro y 1.5 Flash. La empresa puso el foco en la cantidad de datos que supuestamente pueden procesar y analizar para realizar tareas sumamente complejas. Sin embargo, según algunas investigaciones, los modelos no son tan buenos como dicen ser.
Los modelos Gemini de Google tienen dificultad para responder a preguntas sobre grandes conjuntos de datos, dando una respuesta correcta solo en un 40 o 50% de las veces. A pesar de la gran cantidad de contexto que Gemini puede procesar, muchas veces el modelo en realidad no entiende el contenido.
Marzena Karpinska, postdoctorada en UMass Amherst trabajó junto con investigadores del Instituto Allen de IA y Princeton para probar la eficacia de la IA de Google. El equipo le pidió a los modelos que evaluaran afirmaciones de verdadero/falso sobre libros modernos de ficción escritos en inglés, pero con ciertas referencias a detalles específicos y puntos de la trama que serían imposibles de comprender sin leer los libros en su totalidad. Mientras que 1.5 Pro respondió correctamente las afirmaciones de verdadero/falso el 46,7% de las veces, Flash respondió correctamente sólo el 20% de las veces.
Hemos notado que los modelos tienen más dificultades para verificar afirmaciones que requieren considerar porciones más grandes del libro, o incluso el libro completo, en comparación con afirmaciones que pueden resolverse recuperando evidencia a nivel de oración" indica Karpinska. Además, señala que "cualitativamente, también observamos que los modelos tienen dificultades para verificar afirmaciones sobre información implícita que es clara para un lector humano, pero que no se expresa explícitamente en el texto".Otro estudio, realizado por investigadores de UC Santa Bárbara, probó la capacidad de Gemini de 1.5 Flash para responder sobre preguntas de un video. Los investigadores crearon un conjunto de imágenes junto con preguntas para que el modelo respondiera sobre los objetos representados en las imágenes.
Para poner a prueba la capacidad de la IA, eligieron una imagen al azar y pusieron una serie de imágenes distractoras antes y después de ella para crear algo similar a una secuencia de diapositivas. Flash solo logró transcribir correctamente alrededor del 50% de las transcripciones. Mientras que la precisión se redujo alrededor del 30% con ocho dígitos.
En términos generales, la IA generativa es objeto de escrutinio entre los más escépticos, lo cual ha afectado sus ganancias cayendo en un 76%, según informa Pitchbook. En este sentido, Google ha lanzado estas dos plataformas para revivir el auge de la IA Generativa y sobrepasar a sus competidores. No obstante, puede que sus productos hayan salido muy prematuramente de la fábrica o, simplemente, hayan sido demasiado pretensiosos.