Ciudad de México,
Jorge Cerino
Crédito foto: Twitter @MIT
Investigadores del Instituto Tecnológico de Massachusetts (MIT) desarrollaron un nuevo modelo de inteligencia artificial (IA) de visión computarizada capaz de procesar imágenes de alta resolución de manera más rápida y eficiente. Según su estudio, su IA, llamada EfficientViT, cuenta con una arquitectura amigable para el hardware mientras mantiene una precisión igual o mejor a la de otros modelos disponibles hoy en día.
Sobre la utilidad de este desarrollo, una publicación del MIT menciona la necesidad de un vehículo autónomo que cuente con una visión computarizada y le permita identificar con precisión obstáculos en el camino. No obstante, es necesario trabajar con imágenes de alta resolución para no pasar por alto ningún detalle, lo cual requiere de una mayor cantidad de cálculos computacionales, cuadruplicándose conforme aumenta la resolución.
Previo al desarrollo de los investigadores del MIT, la forma más eficiente de realizar esta tarea es a través de un modelo de aprendizaje automático conocido como transformador de visión. Sin embargo, este modelo y otros similares son demasiado lentos para procesar imágenes de alta resolución en tiempo real o en un dispositivo periférico como un sensor o un teléfono inteligente.
Como el modelo transformador de visión, la inteligencia artificial EfficientViT divide una imagen en parches de pixeles y codifica cada pequeño parche en un token para generar un mapa de atención. Así, una imagen en alta resolución puede contener millones de píxeles, divididos en miles de parches computados para acceder a todas las partes relevantes de la imagen.
Un transformador de visión cuadruplica la cantidad de cálculos necesarios conforme aumenta la resolución de la imagen, por su funcionamiento no lineal. A diferencia de esto, EfficientViT recurre a una función de similaridad lineal, de manera que el procesamiento solo incrementa linealmente respecto a la resolución. Esto a su vez permite reducir la cantidad de cálculos sin cambiar la funcionalidad ni perder el campo receptivo global.
No obstante, esto también disminuye la precisión de la inteligencia artificial, al captar únicamente el contexto global de la imagen, perdiendo información local. Para combatir esto, los investigadores del MIT incluyeron dos componentes extra en su modelo, que solo necesitan una pequeña cantidad de procesamiento computacional para funcionar.
Uno de estos elementos asiste al modelo de inteligencia artificial para capturar las interacciones de características locales. El segundo es un módulo para aprendizaje multiescala, para ayudar a la inteligencia artificial a reconocer objetos grandes y pequeños. Así se soluciona el problema con un cuidadoso balance entre eficiencia y rendimiento, afirman los investigadores, y se mantiene una precisión igual o mejor a la de otros modelos disponibles hasta ahora.
Actualmente, los vehículos autónomos recurren a tecnologías como cámaras, radares y lidares, para detectar su entorno, por lo que una inteligencia artificial precisa y eficiente, con análisis en tiempo real, es imprescindible. En este sentido, los creadores de EfficientViT esperan su aplicación en las computadoras perimetrales de los vehículos autónomos.
Respecto a otros usos de esta nueva inteligencia artificial de visión computarizada, también se plantea su integración en cascos de realidad virtual o en un teléfono inteligente y otros dispositivos pequeños. Igualmente, piensan que podría utilizarse en otras tareas de visión computarizada, como la clasificación de imágenes o mejorar la calidad de la imagen en videojuegos. En este sentido, la capacidad de procesar más rápida y eficientemente imágenes de alta resolución también podría incidir en aplicaciones de análisis de imagen, como la predicción de accidentes viales o medir el desarrollo poblacional.