Foto: Unsplash
Ingenieros del Instituto Tecnológico de Massachusetts (MIT, por sus siglas en ingles) están imaginando robots para ayudar en las labores domésticas con la capacidad de seguir comandos de alto nivel, de tal modo que inteligencias artificiales tipo Alexa, Siri y Cortana en algún momento puedan ejecutar comandos como "Ve a la cocina y tráeme una taza de café". Para llevar a cabo tareas de alto nivel, los investigadores aseguran que los robots deberán de ser capaces de percibir su entorno físico como lo hacen los humanos.
Luca Carlone, profesora asistente de aeronáutica y astronáutica en el MIT dijo; "Para tomar cualquier decisión en el mundo, debes tener un modelo mental del entorno que te rodea, esto es algo natural y sin esfuerzo en los humanos no obstante, para los robots es un problema sumamente difícil, donde se trata de transformar los valores de píxeles que ven a través de una cámara, en una comprensión del mundo".
Carlone y sus alumnos han desarrollado una representación de la percepción espacial de los robots basada en la forma en que los humanos perciben y andan por el mundo. Gráficos de escena dinámicos en 3D es un desarrollo que permite a un robot generar rápidamente un mapa 3D de su entorno, incluyendo objetos y sus etiquetas semánticas -una silla frente a una mesa, por ejemplo-, así como personas, habitaciones, paredes y otras estructuras del entorno.
"Esta representación comprimida del entorno es útil porque permite que el robot tome decisiones rápidamente y planifique su camino. Aun así, esto dista mucho de lo que hacemos como humanos. Si necesita planificar un camino desde su hogar hasta el MIT, no planifica todas las posiciones que necesita tomar. Simplemente piensa en el nivel de las calles y puntos de referencia, lo que le ayuda a planificar su ruta más rápido " comentó Carlone.
Asimismo, el nuevo modelo de percepción espacial es el primero en generar un mapa 3D del entorno en tiempo real, al tiempo que etiqueta objetos, personas y estructuras dentro de ese mapa. La clave y corazón de este modelo es Kimera, una biblioteca de código abierto desarrollada previamente para construir simultáneamente un modelo geométrico 3D de un entorno, mientras codifica la probabilidad de que un objeto sea, por ejemplo, una bicicleta frente un automóvil. "Al igual que la criatura mítica que es una mezcla de diferentes animales, queríamos que Kimera fuera una mezcla de mapeo y comprensión semántica en 3D", dice Carlone.
Kimera funciona tomando imágenes con la cámara de un robot, y mediciones inerciales con sensores integrados para estimar la trayectoria del robot y reconstruir la escena como una malla 3D, todo en tiempo real. La malla semántica es generada al utilizar una red neuronal existente entrenada con millones de imágenes del mundo real, para predecir la etiqueta de cada píxel, luego proyecta estas etiquetas en 3D usando una técnica conocida como proyección de rayos, que se basa en la proyección de imágenes en base a un modelo 2D o 3D.
De esta manera, MIT apuesta cada vez más por la incorporación de los robots en la vida de las personas, buscando que ayuden en las laborales domésticas al estilo Siri o Alexa. Mediante este avance, se pretende no solo lograr la capacidad de servir como empleados domésticos sino que los robots tengan la capacidad de desenvolverse en trabajos de alto nivel, como trabajar con personas en una fábrica o con los rescatistas en una zona de desastre para búsqueda de sobrevivientes.
DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS