Los momentos más emocionantes en el US Open según inteligencia artificial

El puntaje general de la emoción tiene en cuenta la multitud, el análisis de partidos y los gestos de los jugadores

IBM utilizó a Watson para analizar emociones, sonidos y edades de los jugadores del US Open de tenis y con ello generó videos de resumen de cada partido

Comenzó una etapa en donde el editor de video es la inteligencia artificial y para ponerlo a prueba, se implementó en el juego de tenis del US Open. IBM ayudó a diseñar mediante un sistema de inteligencia artificial un resumen de los momentos más emocionantes, a solo dos minutos de finalizado un partido. Esto permite resaltar cada punto para que fanáticos del tenis, editores de videos y socios de la transmisión puedan contar con lo más destacado.

Esta hazaña implicó enseñarle a IBM Watson a reconocer diferentes elementos como la acústica, euforia del público, el tono del comentarista y expresiones faciales. También debió trabajar para eliminar el sesgo involuntario producido por machine learning. Una vez entrenado un modelo de inteligencia artificial, Watson analizó las mejores jugadas mediante algoritmos de comprensión multimedia.

Datos acústicos

Los datos acústicos fueron un factor clave debido a que las imágenes presentaban variedad de ángulos, diferentes resoluciones, vistas obstruidas, disparidad entre contraste y colores. Por ello, el análisis acústico se convirtió en prioridad. El sonido en el tenis es relativamente estable si se lo compara con la visión. Por ello, fue mejor para el aprendizaje automático.

Una vez se identificó el clip multimedia con el sonido, el equipo de IBM se concentró en las emociones. Un sistema de clasificación de emoción se extrae de cada nuevo registro, se envía a Watson Machine Learning y se obtiene una puntuación del contexto.

El sistema AI Highlights en el US Open utiliza varias técnicas de aprendizaje profundo y aprendizaje automático para determinar el nivel de emoción de un video. Cada video se divide en sus componentes de video y sonido. El sonido se convierte a un formato MP3 y se coloca en una tienda de discos. Un proceso desarrollado en lenguage de programación Python recoge el MP3 y envía el contenido a una red neuronal convolucional (CNN) llamada SoundNet con la biblioteca PyTorch. La última capa de la CNN se elimina con el objetivo de recuperar la representación espacial del sonido. El vector de características se ingresa en una máquina de vectores de soporte (SVM) que se entrenó en el dominio del tenis. Se aplican dos SVM para producir un puntaje de entusiasmo de público y discurso de comentarista. La puntuación se escala aún más a fin de compensar los cambios de sonido de video año tras año en el US Open.

Las puntuaciones individuales de la alegría, la acción, el movimiento del cuerpo contribuye a los puntajes de la multitud y los gestos del jugador y al puntaje general de emoción. Cada puntaje de emoción se guarda en el almacén de datos de Cloudant para su procesamiento posterior por la aplicación de desbarbado.

Cada uno de los aspectos más destacados, clasificados según el contexto del juego y las características de emoción multimedia cuentan la narrativa del US Open de 2019. Con ello, se logró sorprendentes momentos de los aspectos más destacados. Con el proceso de AI Highlights, es posible un enfoque más objetivo y amplio para los mejores momentos de tenis que los fanáticos nunca antes habían podido ver. El experimento mediante inteligencia artificial con el objetivo de destacar los momentos más emocionantes resultó un éxito para el público.