Foto: Unsplash
En el campo del aprendizaje automático, se conoce como Equidad a la medida en la que un algoritmo predictivo es justo, es decir, que arroja resultados independientes de variables como el género, la etnia o la orientación sexual si estos no han sido tomados en cuenta desde su entrenamiento. Si bien es indispensable que un algoritmo construido para tomar decisiones de importancia médica se ajuste para cumplir esta condición, una investigación dirigida por Nigam Shah, profesor de medicina y de ciencia de datos biomédicos en la Universidad de Stanford, revela los límites existentes de estos modelos de predicción médica para resolver el problema de la equidad desde el fondo.
En el campo de la medicina es común el uso de ciencia de datos y algoritmos predictivos con el propósito de prevenir posibles complicaciones en pacientes considerados de alto riesgo, predecir la carga hospitalaria, entre otros. Una forma común de entrenar estos modelos es a partir de una gran cantidad de historiales clínicos y médicos. Sin embargo, si estos datos presentan sesgos relacionados con variables de raza o género, el algoritmo heredará esos sesgos y puede derivar en una atención médica diferenciada según estas variables, reproduciendo prácticas discriminatorias.
De ello resulta la importancia de calibrar estos algoritmos para ser considerados equitativos. Sin embargo un paper publicado en julio de 2020 por el equipo integrado por Shah, Stephen Pfohl y Agata Foryciarz, estudiantes graduados de Stanford, encontró que implementar ajustes basadas en calibrar criterios de equidad disminuye el desempeño del modelo, apuntando al hecho ninguna aproximación basada en algoritmos resulta lo suficientemente exhaustiva para atender las desigualdades históricas en la atención médica.
Para probar esto, se diseñó un experimento en el cual entrenaron a a un algoritmo a partir de tres grandes conjuntos de datos y lo programó para predecir resultados como mortalidad hospitalaria, hospitalizaciones extendidas, recaídas, entre otros. Los resultados del modelo fueron separados en subgrupos según la raza, edad, etnicidad y género del paciente. Posteriormente, fueron sometidos a diferentes medidas de ajuste utilizadas en hospitales para optimizar la equidad. "Lo que obtenemos al final es una gran matriz de como diferentes nociones de equidad y desempeño del modelo covarían entre los distintos subgrupos", afirma Pfohl.
Según los investigadores, estos resultados no dan por sentado la inviabilidad de estos algoritmos ni de los ajustes de equidad, sino sus límites y su fuerte dependencia del contexto. "Si satisfaces una noción de equidad, no puedes satisfacer la otra y viceversa, y diferentes nociones pueden ser razonables en diferentes contextos", remarca Pfhol. Con los resultados de su investigación, el equipo busca enfatizar la importancia del mantener el factor humano en procesos guiados por datos y aprendizaje de máquina, de forma que al frente de las decisiones exista un agente capaz de ver el contexto de atención necesario y tomar decisiones matizadas.
"Los algoritmos no viven en el vacío están construidos para permitir la toma de decisiones. Hay algunas situaciones donde la equidad depende de tener dos criterios para dos diferentes subgrupos poblacionales.Y estamos perfectamente bien con eso", afirmá Shah. Los resultados de este experimento revelan algunas de las limitaciones inherentes de los modelos predictivos basados en aprendizaje de máquina, marcados por su fuerte dependencia del contexto y la arbitrariedad de los conceptos de equidad.
DESCARGA LA NOTA SÍGUENOS EN GOOGLE NEWS