Desarrollan eficaz app de aprendizaje automático que puede detectar bots en Twitter

Portada | Ciencia y tecnología

Foto: Pedro Basilio (NotiPress)

Un grupo interdisciplinario de investigadores nórdicos adscritos a la Universidad de Finlandia Oriental y al Centro de Ciencias y Aplicaciones Intensivas de Datos de la Universidad de Linneo dieron a conocer en marzo de 2019, como parte de la IV Conferencia de la Asociación de Humanidades Digitales en los Países Nórdicos, los resultados de sus experimentos para desarrollar una aplicación móvil capaz de detectar bots en Twitter; destaca el hecho de que Jonas Lundberg, Jonas Nordqvist y Mikko Laitinen lograron usar aprendizaje automático para analizar los metadatos de los tweets de tal manera que el idioma de una publicación no limita la clasificación hecha por la app.

Posteriormente publicado en las actas del evento, el artículo de los científicos detalla cómo lograron un 98.2% de eficacia al clasificar 15 mil tweets publicados en finés, sueco o inglés; cada tweet fue catalogado como generado automáticamente (autogenerated tweet, AGT) o generado por humanos (human-generated tweet, HGT). Para etiquetar las cuentas no personales y automatizadas que publican contenido en las redes sociales en línea, emplearon el término bot; y consideraron un AGT todo tweet cuyo contenido en lenguaje natural se genera (total o parcialmente) de manera automática por un bot u otro tipo de programa.

El algoritmo de aprendizaje automático creado por Lundberg, Nordqvist y Laitinen fue entrenado con un corpus bilingüe de twees (combinación de las palabras entre tweets y sweet) en finlandés y en sueco, pero luego el programa se empleó para clasificar publicaciones individuales donde se incluyeron tweets en un tercer idioma, el inglés. Las clasificaciones del algoritmo se basan de manera exclusiva en el análisis de los metadatos inherente a cada tweet, con parámetros de metadatos independientes del idioma y del país; este enfoque, a diferencia de otros desarrollos de la misma finalidad, no depende del lenguaje y no realiza un entrenamiento monolingüe.

Los lingüistas e informáticos involucrados en el experimento tenían el objetivo de aumentar la precisión de los datos recopilados como parte de estudios sociolingüísticos que utilizan Twitter, mediante la reducción de muestreos sesgados e imprecisiones en los datos lingüísticos. Campañas políticas, trastornos sociales y políticos, Twitter como la red social que sirve de medio de comunicación durante emergencias, el uso de datos de redes sociales para predecir los precios del mercado de valores, entre otros fenómenos, pueden estudiarse de manera relativamente fácil en la red social dirigida por Jack Dorsey.

Para los estudiosos de tales fenómenos, la presencia de bots en redes sociales implica un serio problema, pues los tweets generados de forma total o parcialmente automática introducen datos sesgados en las investigaciones. Twitter se ha convertido en un popular instrumento para el debate público, pero se estima que entre 5% y 10% de las cuentas de la red social son bots y se les atribuye a estos usuarios alrededor de 25% de la totalidad de tweets publicados en la plataforma. Los bots no sólo se usan con fines publicitarios, también los hay orientados a difusión de noticias falsas, acoso, injerencia extranjera y otras prácticas de mala fe (trolls).

Tener la capacidad de detectar bots en Twitter de forma rápida y eficiente a través de una app de aprendizaje automático que analiza vastas cantidades de datos es un desarrollo de suma importancia, y no sólo en el ámbito académico. La nueva herramienta ayuda a mejorar la calidad de los datos y así contribuye a tener una imagen más precisa de la realidad, evaluación que debe ser el punto de partida en el diseño y la posterior implementación de medidas orientadas a mejorar las sociedades, porque la salud conversacional en las redes sociales es un reflejo de los fenómenos de la vida real.

Contenido actualizado el 04-07-2019 15:07

DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS