Ciudad de México ,
Juan Manuel Flores
Crédito foto: Gustavo Torres (NotiPress)
El Observatorio de Internet de Stanford (SIO) encontró cientos de imágenes de material de abuso sexual infantil (CSAM) en el conjunto de datos abiertos, Stable Diffusion, utilizado para entrenar IA generativa de texto a imagen. De acuerdo con el reporte, los modelos conocidos con LAION-5B están siendo entrenados con contenido explícito infantil para crear desnudos fotorrealistas mediante modelos de inteligencia artificial generativa.
Anteriormente, el SIO junto con el grupo de seguridad infantil Thron han denunciado que los rápidos avances del aprendizaje automático facilitan la explotación sexual infantil mediante la generación de imágenes IA de código abierto. A su vez, han identificado que los datos de CSAM, incluidos en Satble Diffusion, fueron extraídos de una amplia gama de fuentes, incluyendo redes sociales y sitos populares de videos para adultos.
De acuerdo con el comunicado del observatorio, la eliminación de material de origen identificado está en curso. Pues el CIO, informó al Centro Nacional de Niños Desaparecidos y Explotados sobre las URL identificadas. Para la identificación del material y URL se utilizó la herramienta hashing PhotoDNA. Este compara "la huella" de imágenes contenidas en bancos de datos administradas por organizaciones de protección de abuso infantil con bases de datos públicas.
A su vez, el SIO remarca que sin una autoridad central dedicada a alojar los datos reales, limpiar y detener la distribución de conjuntos de datos abiertos es sumamente complicado. Ante ello, en el informe incluyeron una serie de recomendaciones de seguridad para recopilar conjuntos de datos, entrenar modelos y hospedar modelos entrenados en conjuntos de datos extraídos y no en conjuntos de datos abiertos. Así hacen un llamado para que los desarrolladores cotejen los conjuntos de imágenes de bancos de entrenamiento de IA con listas conocidas de CSAM.