Tras estudiar la metodología del sistema de inteligencia artificial supuestamente capaz de predecir embarazos adolescentes, mencionado por el Gobernador de Salta, Juan Manuel Urtubey, encontramos serios errores técnicos y conceptuales, que ponen en duda los resultados reportados y comprometen el empleo de dicha herramienta, sobre todo tratándose de una cuestión tan sensible.
El 11/4/2018, en el programa de televisión “El Diario de Mariana”, el Gobernador de Salta, Juan Manuel Urtubey, describió un sistema de inteligencia artificial supuestamente capaz de predecir embarazos adolescentes:
“Hace poco lanzamos un programa con el Ministerio de Primera Infancia […] de prevención del embarazo adolescente utilizando inteligencia artificial con una reconocidísima empresa de software del mundo, que estamos haciendo un plan piloto. Vos podés hoy con la tecnología que tenés, podés ver, cinco o seis años antes, con nombre y apellido y domicilio, cuál es una niña, futura adolescente, que está un 86% predestinada a tener embarazo adolescente.”
Previamente, el 20/3/2018, en el evento “Microsoft Data & AI Experience 2018”, Urtubey ya había mencionado este tema:
“Los ejemplos que hacías referencia en el caso de la prevención de embarazo adolescente y el tema de la deserción escolar son ejemplos clarísimos respecto de eso. Nosotros tenemos claramente definidos, con nombre y apellido, 397 casos de chicos que sabemos, de un universo de 3000, que inexorablemente caen en deserción escolar. Tenemos 490 y pico, casi 500 casos de chicas que, sabemos, que tenemos que ir a buscarlas hoy.”
Distintos medios periodísticos asociaron estas declaraciones del Gdor. Urtubey a un documento disponible en github firmado por Facundo Davancens, empleado de Microsoft Argentina. Ese documento termina agradeciendo “al Ministerio de Primera Infancia del Gobierno Provincial de Salta” y “a Microsoft”.
Tras estudiar con cuidado la metodología detallada en ese documento, encontramos serios errores técnicos y conceptuales, que ponen en duda los resultados reportados por el Gdor. Urtubey, y que comprometen el empleo de la herramienta generada, en una cuestión tan sensible como el embarazo adolescente.
Enumeramos breve y coloquialmente algunos de los problemas más graves que hemos encontrado:
Problema 1: Resultados artificialmente sobredimensionados
El estudio detalla el siguiente procedimiento:
- Construye un conjunto de reglas estadísticas para intentar determinar si una adolescente tendrá un embarazo en el futuro.
- Esas reglas se construyen basándose en datos conocidos (los “datos de entrenamiento”). Entonces, las reglas estadísticas están hechas a imagen y semejanza de los datos de entrenamiento.
- Una vez construidas las reglas estadísticas, se deberían ponen a prueba usando datos nuevos, desconocidos (los “datos de evaluación”), calculando así su “exactitud” (cuántas veces acierta en las predicciones).
El problema acá, es que los datos de evaluación (en el paso 3) incluyen réplicas casi idénticas de muchos datos de entrenamiento. Y por lo tanto, los resultados reportados están fuertemente sobredimensionados. Lleva a la conclusión errónea de que el sistema de predicción funciona mejor de lo que en realidad lo hace. (En el anexo de abajo damos más detalles de este problema.)
Problema 2: Datos posiblemente sesgados
El otro problema, que es clave e insalvable, es que dudamos fuertemente de la confiabilidad de los datos usados en este estudio.
Los datos de embarazos adolescentes tienen una tendencia a estar sesgados o incompletos, debido a que son un tema sensible y confidencial, de difícil acceso. Por ejemplo, en muchas familias los embarazos adolescentes tienden a ocultarse, e incluso a interrumpirse clandestinamente. Por lo tanto, los datos usados tienen el riesgo de incluir más embarazos adolescentes de ciertos sectores de la sociedad que de otros.
Así, incluso si la metodología usada para construir y evaluar los sistemas fuera correcta, las reglas estadísticas construidas sobre estos datos arrojaría conclusiones erradas, que reflejarían las distorsiones de los datos.
Problema 3: Datos inadecuados
Los datos utilizados fueron extraídos de una encuesta a adolescentes residentes en la provincia de Salta conteniendo información personal (edad, etnia, país de origen, etc), sobre su entorno (cantidad de personas con quien vive, si tiene agua caliente en el baño, etc) y sobre si había cursado o estaba cursando, al momento de la encuesta, un embarazo.
Estos datos no son adecuados para responder a la pregunta planteada: si una adolescente tendrá un embarazo en el futuro (por ejemplo, dentro de 5 ó 6 seis años). Para eso, sería necesario contar con datos recolectados 5 ó 6 años antes de que suceda el embarazo.
Con los datos actuales, en el mejor de los casos, el sistema podría determinar si una adolescente ha tenido, o tiene ahora, un embarazo. Es de esperar que las condiciones y características de una adolescente hayan sido muy diferentes 5 ó 6 años antes.
Conclusión
Tanto los problemas metodológicos como los datos poco confiables plantean el riesgo de llevar a tomar medidas incorrectas a los responsables de políticas públicas.
Este caso es un ejemplo de los peligros de utilizar los resultados de una computadora como una verdad revelada. Las técnicas de inteligencia artificial son poderosas y demandan responsabilidad por parte de quienes las emplean. En campos interdisciplinarios como éste, no debe perderse de vista que son sólo una herramienta más, que debe complementarse con otras, y de ningún modo reemplazan el conocimiento o la inteligencia de un experto, especialmente en campos que tienen injerencia directa en temas de salud pública y de sectores vulnerables.
================================================================
Anexo: Más detalles del problema 1
El proceso utilizado para obtener los resultados reportados es técnicamente incorrecto. Se está violando un principio básico del aprendizaje de máquinas: que los datos sobre los que se evalúa el sistema deben ser distintos a los datos que se usan para entrenarlo. Si este principio se viola, es decir, si hay contaminación de datos de entrenamiento en los datos sobre los cuales se valida, los resultados serán inválidos.
En el sistema descrito en github por el autor, la contaminación de los datos de evaluación surge de manera bastante sutil. El sistema usa un método para balancear la cantidad de muestras de cada clase llamado SMOTE. Este método genera nuevas muestras “sintéticas” replicando las muestras de la clase minoritaria (con riesgo de embarazo, en este caso) X veces con pequeñas variaciones respecto a la muestra original. El problema surge porque el autor hace esta réplica de datos antes de dividir los datos en entrenamiento y evaluación. Esta división se hace de manera aleatoria, de manera que es muy factible que una muestra aparezca en el conjunto de entrenamiento y alguna de sus réplicas aparezca en los datos de evaluación. Al evaluar en estos datos replicados, la consecuencia es que se sobredimensiona el valor de la exactitud. Dado este problema, es imposible saber cuál es la exactitud verdadera de este sistema.
Esto se puede entender usando un ejemplo. Supongamos que en vez de usar las características consideradas en este trabajo (edad, barrio, etnia, país de origen, etc), usamos simplemente el nombre y apellido de cada adolescente. Claramente, un sistema que tenga sólo esa información como entrada, no sería capaz de aprender a extrapolar y tomar decisiones en datos nuevos. Pero, en el caso de utilizar SMOTE como se ha utilizado, sería fácil poder aprender a memorizar los datos de entrenamiento perfectamente y luego, predecir con exactitudes muy altas los datos de evaluación ya que contendrían réplicas de estos mismos nombres y apellidos. En el caso que estamos estudiando, no se está usando el nombre y apellido como entrada pero sí una serie de características que, si lo pensamos detenidamente, permiten que ocurra el mismo problema. Por ejemplo, un sistema que aprende que una adolescente de 16 años, que vive en el barrio El Milagro, criolla, sin discapacidades, de origen Argentino, con agua caliente en el baño y que vive con 4 personas donde el jefe de hogar no abandonó los estudios tiene riesgo de embarazo adolescente, al evaluar el sistema con datos en donde ocurren réplicas casi idéntica de estas características, podrá predecir sin problema la clase de estas réplicas. Ya que, debido al uso de SMOTE previo a la división de los datos en conjuntos de entrenamiento y evaluación, una alta proporción de las muestras de la clase minoritaria vistas en la evaluación habrá sido vista durante el entrenamiento esto resulta en un valor de exactitud sobredimensionada.
Nota: Cabe aclarar que al momento de la redacción de este documento, otros han encontrado y reportado una visión muy similar, publicado en la misma página donde se publicó la descripción original del sistema de predicción. Enlace: https://github.com/facundod/case-studies/issues/2