No hay una disciplina científica con más «eurekas» que la ciencia de materiales. Como no entendemos bien los intríngulis de la materia, el descubrimiento de materiales que tienen un conjunto particular de propiedades siempre ha sido un proceso tremendamente fortuito que requiere cantidades ingentes de buena ciencia, suerte y paciencia.
La historia de la tecnología está llena de ideas revolucionarias que se quedan durante décadas metidas en un cajón esperando a que seamos capaces de encontrar el material concreto que permita hacerlas realidad. Por eso, desde hace años, los científicos intentan utilizar la inteligencia artificial para tratar de agilizar estos procesos.
Ahora, un equipo de investigadores del Lawrence Berkeley National Laboratory han demostrado que gracias a una combinación de aprendizaje automático no supervisado y ‘minería de textos’ se pueden procesar millones de artículos científicos y encontrar relaciones que, hasta hoy, permanecían «ocultas». Hoy es en la ciencia de los materiales, pero no se va a quedar ahí.
IAs para descubrir materiales
Solo necesitamos imaginar las innumerables combinaciones de componentes y estructuras posibles, para darnos cuenta de que el desarrollo de materiales es una tarea que no se acaba nunca. Sobre todo porque los métodos tradicionales para el análisis de la composición de los materiales consumen mucho tiempo, son tremendamente aburridos y extremadamente caros. Según algunos expertos, se requiere un promedio de 10 años para que un laboratorio desarrolle un nuevo material y 20 años para que ese material pueda producirse en masa.
Minería de artículos científicos
Tshitoyan y su equipo han optado por otro enfoque. Según publican en Nature, han conseguido extraer conocimientos que hasta ahora se encontraban dispersos (y ocultos) en millones de artículos científicosde manera efectiva gracias a un algoritmo de aprendizaje automático.
Para ello, el equipo recopiló 3,3 millones de resúmenes de artículos sobre ciencias de los materiales publicados entre 1922 y 2018. Estos resúmenes se procesaron (para descartar textos que no estuvieran en inglés, etc… hasta dejarlos en un millón y medio) y se analizaron con un algoritmo de aprendizaje automático no supervisado (Word2vec). Ese algoritmo utiliza redes neuronales para realizar estimaciones sobre el significado de las palabras y sus patrones de uso en el texto original.
Ahí estaba la clave. Al analizar el banco de textos, los científicos descubrieron que el algoritmo era capaz de identificar posibles materiales relacionados con distintas propiedades físicas y eléctricas. Por ejemplo, entrenaron al sistema para predecir la probabilidad de que el nombre de un material en concreto coexistiera con el término «termoeléctrico». Fue un éxito, pero hay que reconocer que eso era sencillo.
Lo interesante vino después, cuando buscaron materiales que, aunque no se habían relacionado directamente con la termoelectricidad, sí tenían una fuerte relación semántica según los análisis previos del algoritmo. En este caso, para evaluar su efectividad, los investigadores cogieron un año al azar y pidieron al sistema que seleccionara los materiales con posibles propiedades termoeléctricas con la evidencia disponible. Y, sorprendentemente, también funcionó: los materiales seleccionados tenían ocho veces más probabilidad de haber sido estudiados, con éxito, en los siguientes cinco años.
El equipo investigó otros conceptos como ‘fotovoltaico’ o ‘ferroeléctrico’ con resultados muy parecidos. Resultados que rápidamente han disparado la imaginación de la gente con sus posibles aplicaciones en los más distintos campos del saber. Cada año se publican más de dos millones de artículos científicos, ¿Qué misterios habrá ocultos en esa enorme cantidad de trabajo? Me temo que la respuesta a esa pregunta la tendremos antes de lo que podríamos esperar.