Entre la psicología y la tecnología, eligió la segunda. Su padre la convenció de que era mejor estudiar Telecomunicaciones, por aquello de que tenía más salidas. Así comenzó la ingeniera murciana Isabel Valera un viaje que le llevaría a la inteligencia artificial y en el que nunca abandonaría su lado social. Ahora, como líder del Grupo de Investigación de Aprendizaje Probabilístico en el Max Planck Institute for Intelligent Systems en Tübingen (Alemania), trabaja en el desarrollo de sistemas de aprendizaje automático más flexibles, robustos y justos.
¿Qué más? Ha obtenido menciones de honor y premios por varios artículos en temas de equidad del aprendizaje automático e interpretabilidad de datos. Es académica de la Red ELLIS -Laboratorio Europeo de Aprendizaje y Sistemas Inteligentes- que junta a los mejores académicos europeos con investigadores en la industria para sumar a Europa como actor clave en el desarrollo de la IA y crear empleo y nuevas oportunidades. Es parte también del Clúster de Excelencia sobre aprendizaje automático de la Universidad de Tübingen, y es ganadora de la beca Minerva Fast Track, un programa de Max Planck que selecciona cada año a dos mujeres científicas destacadas para impulsar su carrera profesional hacia puestos de liderazgo académicos.
Además de eso, es una de las investigadoras principales del proyecto Automatic Data Preprocessing (preprocesado automático de datos) financiado por Samsung en la Universidad de Cambridge y ha publicado más de 30 artículos en conferencias y revistas de primer nivel sobre aprendizaje automático y minería de datos.
¿Cómo ha llegado hasta aquí? Valera se fue en 2008 a Hannover (Alemania) con una beca Erasmus a hacer su trabajo de fin de carrera sobre geolocalización mediante antenas de telefonía móvil. Fue su primera conexión con la investigación y de ella salió su primera publicación en un simposio. Cuando volvió a España decidió que quería hacer un doctorado. Tras sopesar varias opciones, aceptó un puesto como ingeniera en el departamento de Teoría de la Señal y Comunicaciones de la Universidad Carlos III de Madrid (UC3M), donde tuvo su primer contacto con el aprendizaje automático.
Allí empezó su doctorado sobre aprendizaje bayesiano no paramétrico para el análisis de datos psiquiátricos. O, dicho de otro modo, se dedicó a realizar modelos estadísticos para analizar patrones en los datos y dependencias entre diferentes variables. «Teníamos una base de datos poblacionales de un estudio estadístico muy grande sobre salud mental con encuestas a unas 44.000 personas en EE.UU y una serie de criterios que los psiquiatras usan para diagnosticar cada desorden. Por otra parte, disponíamos del diagnóstico de cada persona, realizado de manera automática con esos criterios sobre 20 desórdenes de personalidad», explica Valera, a quien entrevistamos en el marco de su participación en un evento del Parque Científico de la UC3M sobre inteligencia artificial y ética.
«Con nuestros modelos de aprendizaje automático -continúa Valera- confirmamos que esos 20 desórdenes se podían juntar en tres grupos. Después analizamos cómo de bien estaban diseñados los 54 criterios que los psiquiatras tenían para hacer los diagnósticos». El objetivo final -dice- era comprobar que las hipótesis que los especialistas tenían se cumplían en los datos y darles pistas de qué criterios podrían estar más relacionados con otros desórdenes que para aquellos para los que se habían diseñado.
Como parte de su tesis, la investigadora realizó también un análisis de predicción de suicidios y otro de cómo las propiedades sociodemográficas afectaban a cada desorden en función de parámetros como, por ejemplo, el género. «Cogimos estudios de psiquiatría y lo comparamos con los datos de la encuesta para ver cuáles de las hipótesis de los estudios se corroboraban en los datos», comenta.
Comportamiento en redes sociales
El siguiente destino de la investigadora fue el Max Plank for Software Systems en Alemania (concretamente, en la localidad de Saarbrücken) donde empezó a trabajar con dos investigadores en una colaboración entre los grupos de aprendizaje automático y de computación social. Su proyecto estaba centrado en modelar patrones sociales de las personas en redes sociales. Es decir, obtener información sobre cómo la gente adopta convenciones sociales de acuerdo a su entorno en el marco online.
«Con convenciones me refiero, por ejemplo, a cómo se acortan palabras largas, pasando de retuit a ‘RT’ o a qué acortadores de URL usas. Había varias opciones que tendieron a converger en unas pocas por motivos de influencia social», explica Valera. Ella fue la encargada de desarrollar el modelo que serviría para analizar los datos, medir cuánta es la influencia social para la adopción de ese tipo de productos y convenciones, y observar cómo evolucionan las dinámicas personales.
Antes de volver a Madrid a terminar su tesis en la UC3M, Valera realizó una estancia en la Universidad de Cambridge con el que sería uno de sus mayores colaboradores: el actual científico jefe de Uber Zoubin Ghahramani, antes subdirector académico del Centro Leverhulme para el Futuro de la Inteligencia. Su objetivo en esa investigación fue desarrollar un algoritmo capaz de estimar datos incompletos en bases de datos heterogéneas.
Tanto Ghahramani como Manuel Gómez Rodríguez, profesor e investigador en el Max Planck de Saarbrücken, ofrecieron a Valera realizar su postdoctorado con ellos. Ella se decantó por el trabajo en el Max Planck, donde continuó su trabajo de análisis de datos temporales en redes sociales. Su foco era analizar las diferentes redes sociales. Por ejemplo, cómo la gente comparte o actualiza su opinión. «Hicimos también modelos sobre cómo la gente aprende online, y sobre legibilidad y viabilidad de la información. Pudimos detectar qué editores en cualquier plataforma online de contenido -por ejemplo, Wikipedia- podían ser maliciosos, de tal forma que la plataforma pudiera tomar medidas para evitar su propagación», comenta Valera.
El modelo que desarrolló allá por 2014 lo usan ahora -dice- para detección de rumores falsos. «Una vez tienes el modelo puedes extrapolarlo a todo tipo de usos que tengan que ver con detectar comportamientos que no son normales o dinámicas diferentes de propagación», señala. También siguió colaborando con Ghahramani en un algoritmo para preprocesado de datos automático para automatizar la estimación de valores incompletos, detectar valores corruptos, etc. en bases de datos heterogéneas.
Algoritmos justos
Después de eso, Valera pasó dos años en el Max Planck de Kaiserslautern (Alemania), donde comenzó su trabajo en algoritmos justos, y seis meses en la Universidad de Cambridge con Ghahramani. En 2017 se fue al Max Plank for Intelligent Systems en Tübingen para formar su propio grupo de investigación dentro del departamento de Inferencia Empírica que lidera Bernhard Schölkopf, «uno de los más reconocidos expertos en aprendizaje automático a nivel mundial», según Valera. En su grupo -denominado Aprendizaje Probabilístico- trabaja en el análisis de datos reales y aplicaciones del mundo real, juntando todas las piezas de lo que venía haciendo en su carrera.
Su objetivo es generar algoritmos con tres propiedades: que sean expresivos o flexibles (es decir, que capturen muy bien la distribución de los datos reales y relaciones estadísticas muy complejas entre ellos); que sean robustos, capaces de especificar lo que no saben y cómo de seguras o inciertas son sus predicciones, y estén alineados con nuestros valores morales y éticos -que no hagan más daño social del que previenen- y puedan explicarse.
«Cada vez que un algoritmo toma una decisión está haciendo una intervención que puede cambiar la distribución de los datos y el comportamiento o la dinámica de la sociedad«, asegura Valera. «Cuando usas algoritmos para predecir lo que va a pasar en el futuro o a quién darle una hipoteca, a quién contratar o a quién recomendar o no un artículo, te arriesgas a que exista algún sesgo discriminativo en tus datos o a que estos no sean representativos. Parte de mi trabajo es encontrar formas de analizar si lo son y, en tal caso, buscar cómo corregirlo», explica la investigadora.
Para ello, lo primero hicieron en su grupo es traducir las normas antidiscriminación a medidas cuantificables con datos. «Ahora mismo solo es posible evaluar y corregir discriminación en contextos muy limitados de decisión binaria como, por ejemplo, si contrato o no a alguien. Lo que no está resuelto es cómo hacerlo cuando entre la observación y la decisión hay dos pasos. Por ejemplo, cuando un sistema predice si alguien devolverá o no una hipoteca, solo se muestra el resultado de quién cree que lo hará pero no la observación de aquellos a los que se ha descartado. En estos casos -dice Valera- el aprendizaje automático no funciona bien porque, si el sistema solo ve los datos de a quién le concede la hipoteca, sus estimaciones estarán sesgadas. «Si siempre se la deniegas a un subconjunto de personas nunca sabremos qué pasaría con ellos y, por tanto, no les tendremos en cuenta para hacer las predicciones», señala.
Lo correcto, por tanto, sería no usar algoritmos predictores sino que estos aprendan a decidir de manera justa y precisa. «Con predictores tomas decisiones deterministas –por ejemplo, ‘si tienes una probabilidad X de devolver la hipoteca te la concedo’- pero para poder ser justos y precisos tenemos que tomar decisiones que no lo sean, que tengan un poco de randomización, de ruido», señala. Para corregirlo -dice- hay que introducir aleatoriedad en el sistema que permita ver los datos de los subconjuntos de personas que de otra forma quedarían ocultos.
Pero eso no es todo. «Hay algunas decisiones de discriminación que son incompatibles unas con las otras, como por ejemplo la igualdad de oportunidades o la paridad demográfica, que en general están contempladas en las leyes. Se ha demostrado que, excepto casos muy obvios, no se puede ser justo en esas dos definiciones a la vez, por lo que o buscas un equilibrio de qué nivel de discriminación puedes permitir en cada una o eliges una de las dos», comenta Valera.
Esto es algo que -dice la científica- no está definido socialmente y es una decisión que habrá que regular. «Necesitamos protocolos para la recolección de datos, para implementar la aleatoriedad en función de cómo equilibrar la balanza de discriminaciones, para definir el margen de error y para otras muchas incógnitas. Las leyes no son tan claras. Es necesario analizar dominio por dominio qué se debe de hacer y qué no», sostiene. Además, no hacerlo –añade- puede generar problemas de competitividad, ya que forzar que un algoritmo sea justo puede hacer que pierda algo de precisión en su rendimiento.
Explicaciones constructivas
Junto con la detección de sistemas discriminatorios y su corrección, Valera trabaja en una tercera área dedicada a su interpretabilidad: la capacidad de la IA de presentar su resultado a un humano en términos comprensibles para esa persona. Esta tiene dos vertientes. La primera es la verificación: que el algoritmo se comporte de forma esperada y sea objetivo. La segunda es la validación: entender las decisiones particulares que este toma. «Se trata de demostrar, por una parte, que los resultados de esos algoritmos no están provocando un daño social y, por otro, ser capaces de explicar a una persona por qué –por ejemplo- no se le ha concedido una hipoteca», afirma la investigadora.
Estas dos vertientes están relacionadas con la transparencia (cómo un algoritmo funciona en términos generales, que pase de ser una caja negra a una de cristal) y con la explicabilidad (explicar las decisiones, predicciones o resultados del algoritmo). Su trabajo se enmarca esta segunda línea: explicar una decisión particular que el sistema ha tomado. Se centra en lo que se denomina ‘ explicaciones contrafactuales‘, una solución que viene del ámbito de la filosofía. Se basa en buscar el vector de atributos más cerca del original para quien se haya tomado la decisión deseada: el punto más cercano a aquel para el que se ha tomado la decisión contraria. Siguiendo con el ejemplo de la hipoteca, sería el individuo al que se la han concedido que más se parece en la base de datos al sujeto al que se la han denegado, al cual se quiere proporcionar la explicación.
Su siguiente paso es hacer la explicación constructiva y que, en lugar de decir a una persona que le habrían concedido una hipoteca si tuviese un salario un 30% mayor (¿quién no lo querría?), le sugiera acciones para conseguirlo. «Queremos aportar explicaciones accionables y que tengan en cuenta cómo unos atributos dependen de otros para deducir el esfuerzo que puede tener que hacer la persona y, conforme a ello, proporcionar una recomendación útil y plausible», afirma Valera.
Su solución no trata de simplificar el algoritmo en sí para entender su lógica global sino facilitar explicaciones locales o personalizadas. «Algo importante es que normalmente interpretabilidad y explicabilidad están muy relacionadas con el resto de factores éticos o morales que nos preocupan. Normalmente quieres entender si un sistema es seguro, justo y robusto. Por eso tienes los diferentes niveles de explicaciones», reafirma Valera.
Visión holística para trabajar en IA
¿Qué recomienda la investigadora a alguien que quiera trabajar en inteligencia artificial? «Lo más importante es tener una visión holística del problema. Los tecnólogos tendemos a centrarnos en las particulares técnicas y a veces nos olvidamos de cómo han sido recopilados los datos o nos centramos solo en el algoritmos y asumimos que el problema que queremos solucionar siempre es el mismo», comenta. Por ejemplo –añade- «nos empeñamos erróneamente en que lo que tenemos delante es un problema de predicción y simplemente cambiamos un algoritmo de predicción por otro, cuando a lo mejor es nuestra visión la que está mal y en realidad ese problema debe abordarse con otro tipo de algoritmo».
Su recomendación tanto para un estudiante como para una empresa que quiera usar IA es siempre tener una visión amplia del problema y cuestionar todos los pasos a dar, desde la recolección de datos y la metodología a emplear hasta cómo se va a implementar en la práctica y qué diferencias hay entre el escenario en el que hacemos nuestras asunciones y la realidad. «Si estos dos no están alineados, no sabemos qué pasará», afirma. «Muchos problemas técnicos y éticos no surgen de uno de los pasos sino del sistema completo», concluye.