Aprendizaje automático en ciencia: pequeña muestra

La revista Patterns es la apuesta en abierto de Cell Press (dependiente de Elsevier) para publicar artículos relacionados con ciencia de datos. Aunque según la revista los temas de los artículos abarcan un espectro amplio de disciplina como física, ciencias sociales y humanidades, la realidad es que la gran mayoría de los artículos están ubicados en el campo de la biología. Al fin al cabo, la revista estrella de esta editorial es Cell que es la publicación más reconocida en biología molecular.

El hecho de que Cell Press haya apostado por esta revista ya nos da un idea del impacto que están teniendo los métodos computacionales en las ciencias de la vida, y en general, en todo el mundo científico. La gran mayoría de los artículos tratan de la aplicación de métodos de aprendizaje automático (cuyas siglas son ML del inglés, machine learning) a este disciplina.

En el último número de octubre me han llamado la atención varios artículos incluyendo el propio editorial. Este resume la nueva dirección que esta tomando la ciencia gracias a la incorporación de aprendizaje automático:

Type less, think more

Es en el primer artículo donde se desarrolla el impacto que los grandes modelos de lenguaje (LLM), como ChatGPT, están teniendo en la redacción científica y el desarrollo de habilidades. Después de casi dos años después del lanzamiento original de ChatGPT, la revista ha seleccionado a un grupo de autores para ver cómo estos modelos están cambiando los métodos de enseñanza e influyendo en las habilidades de escritura y aprendizaje científico.

El segundo artículo se titula Avoiding common machine learning pitfalls. Como bien reflejan el ML ha pasado de ser una actividad de nicho a tener un atractivo masivo. Gracias a la accesibilidad de esta tecnología es muy fácil comenzar en este campo, pero esta facilidad de uso oculta las complejidades subyacentes de trabajar con ML. Este artículo es un clásico en comunidades relativamente inexperta que han corrido a adoptar el ML sin el reposo necesario para interiorizar las sutilezas que esconde detrás de la facilidad de uso.

Ambos artículos son una pequeña muestra del impacto que está teniendo el ML en ciencia, y explican, en cierta manera, los recientes premios nobeles en física y química. La ciencia se soporta porque ajusta en el conocimiento a partir de las evidencias. A la luz de los datos se proponen o se invalidan teorías. El aprendizaje automático utiliza algoritmos informáticos para extraer patrones lo cual permite identificar relaciones más complejas o trabajar con datos masivos y datos no estructurados (texto, audio, imágenes, video…) que son más difícil de analizar manualmente. Disponer de este tipo de técnicas computacionales que llevan a otro nivel el análisis de datos es demasiado atractivo como para dejarlo escapar.