Cómo la IA generativa está colando referencias inventadas en artículos académicos revisados por pares
Una búsqueda reveladora
Haz esta prueba: entra en Google y escribe —entre comillas—
“journal of educational data science”.
Aparecerán enlaces a varias publicaciones científicas que citan una revista con ese nombre.
Repite la misma búsqueda en Google Scholar. Ahora, verás varias páginas que incluyen decenas de publicaciones que citan esta revista.
Suena legítima. Parece académica. Pero hay un detalle fundamental: esta revista no existe.
A pesar de eso, ha sido citada en artículos indexados por plataformas tan reputadas como IEEE o Elsevier. Lo que estamos viendo en directo es la infiltración silenciosa de información falsa dentro del cuerpo oficial del conocimiento científico.
Tomemos uno de los artículos que aparecen en la búsqueda en Google Scholar: The Application and Challenges of Artificial Intelligence in Supporting Educational Innovation, presentado en la 2024 4th International Conference on Big Data Engineering and Education (BDEE).
El texto afirma que:
“Research indicates that using these systems, teachers can intervene and adjust teaching strategies in a timely manner, improving overall teaching effectiveness and students’ learning efficiency. Effectiveness
assessment: online course completion rates increased by 25%;
overall student learning performance improved by 18% [35]“
La referencia [35] es:
Liu, Bangqi, et al. “Applications of Big Data Analysis in Education: Learning Analysis and Prediction Systems.”
Journal of Educational Data Science, vol. 15, no. 1, 2024, pp. 45–62.
Te invitaría a que busque el artículo citado en internet, pero mejor ahórrate el tiempo. El artículo no existe. No hay investigación que sustente la afirmación anterior. Todo inventado.
El papel de la IA generativa
Estas citas no son el resultado de una conspiración, sino del uso despreocupado de inteligencia artificial generativa en la redacción académica. Muchas de estas herramientas no acceden a fuentes verificadas, sino que generan contenido basándose en patrones de lenguaje. Si durante el entrenamiento identifican estructuras repetidas como “Journal of [área técnica] Data Science”, luego pueden producir nombres de revistas que suenan perfectamente plausibles. Pero no son reales.
El problema no es solo que la IA no entienda lo que está escribiendo. Es que simplemente reproduce formas lingüísticas que se ajustan a lo que ha visto antes. Optimiza por coherencia, no por veracidad. El resultado: textos convincentes, referencias detalladas, pero inventadas. Hasta aquí nada nuevo. Lo inquietante es que esta ficción puede colarse en publicaciones revisadas por pares sin que nadie lo detecte.
No estamos hablando de un caso aislado. Springer Nature tuvo que retractar un libro entero sobre machine learning tras descubrir que estaba plagado de citas falsas y contenido generado automáticamente. En otro caso reciente, algunos autores han llegado a camuflar instrucciones dentro de los manuscritos para manipular a las IA para que emita reseñas positivas. Si el revisor genera la revisión subiendo el manuscrito a una IA, las instrucciones ocultas en el texto fuerzan una buena revisión.
El problema de fondo: los incentivos en la carrera investigadora
Que revistas inventadas terminen formando parte de la bibliografía científica, me parece un síntoma preocupante de una amenaza grave que impacta en el rigor del proceso de producción científica, y a la larga en su credibilidad. Sería un error centrar el problema en la IA Generativa, la cual no deja ser una herramienta a disposición de los investigadores. Además, detectar citas falsas es algo relativamente sencillo de automatizar. Imagino que las editoriales y programas antiplagio terminarán incorporándolo. En mi opinión, esto es un síntoma de un problema mucho más profundo que se deriva de los incentivos que gobiernan la carrera profesional en el mundo investigador. Hay que considerar que la promoción de un investigador depende en gran medida de la cantidad de artículos que publica.
Recordemos dos casos bastante polémicos. Por un lado, Juan Manuel Corchado, actual rector de la Universidad de Salamanca, que fue acusado de inflar artificialmente su currículum científico mediante autocitas y un entramado editorial que favorecía sus publicaciones. La editorial Springer Nature ha retirado hasta 75 de sus artículos, y un informe del Comité Español de la Ética de la Investigación lo señala por manipulación sistemática. Por otro lado, el químico Rafael Luque fue sancionado con 13 años sin empleo ni sueldo por firmar sus investigaciones como afiliado a una universidad saudí, pese a tener dedicación exclusiva en la Universidad de Córdoba. A cambio de hasta 70.000 euros al año, ayudaba a inflar el prestigio saudí en rankings internacionales, sin desempeñar realmente funciones allí. Ambos investigadores tienen un número de artículos publicados y citados muy por encima de la media en sus respectivos campos.
El negocio editorial científico: entre el conocimiento y el lucro
La otra cara de la moneda de la inflación en el número de publicaciones son las editoriales científicas. Cuantos más artículos se publiquen, más ingresos reciben las editoriales. El artículo anteriormente citado cuesta 35 $ si se compra a título personal. El negocio editorial científico a nivel mundial factura más de 15.000 millones de euros al año, situándose por encima de la industria la discográfica con márgenes de beneficio cercanos al 40 %. Solo en 2023, los seis principales grupos editoriales (Elsevier, Springer Nature, Wiley, Frontiers, MDPI y PLOS) ingresaron más de 2.500 millones de dólares solo en concepto de Article Processing Charges (APCs), que son las tasas que se cobran a los autores para dar acceso abierto a las publicaciones.
Tan lucrativo es el negocio, que en los últimos años, se han documentado varios casos en España donde revistas científicas de prestigio fueron compradas por empresas poco conocidas y, tras su adquisición, adoptaron prácticas propias de revistas depredadoras. Estas revistas buscan maximizar los beneficios a costa de la publicación masiva y acelerada de artículos sin los controles de calidad habituales. Este el caso de las revista Comunicar o de Profesional de la Información, esta última vendida por un millón de euros.
¿Una ciencia cada vez más falsa?
Hace unos días publicaba otra reflexión sobre el uso de la IA Generativa por parte del alumnado en la realización de trabajos académicos. Esta revista, de hecho, me la encontré en las citas de un trabajo académico, junto con otras 19 referencias inventadas. Al buscarla en internet es cuando me aparece un nueva realidad en la que cientos de artículos referencian a la misma revista inventada sin haber ninguna coordinación entre ellos. Simplemente porque es un patrón que repite una IA generativa. Ambos casos ponen de manifiesto una realidad que no se puede ignorar, y a la que hay que establecer medidas para paliar los efectos. En ambos casos, liados con problemas de profundo calada donde la IA Generativa lo único que hace es agrandarlos.
El caso de la producción científica no creo que la IA Generativa vaya a crear un problema de veracidad. Hay soluciones técnicas que son sencillas y, al final y al cabo, tengo la impresión de que el impacto de estos casos es nimio comparado con el total de la producción científica. Actualmente, se estima que se publican 6 millones de artículos científicos al año, y en cada una de las últimas dos décadas hemos duplicado la productividad. Es difícil tener una estimación de cuantos de estos artículos son citados al menos una vez, pero los porcentajes son preocupantes cuando eliminamos las autocitas.
No creo que la ciencia tenga un problema de veracidad, pero si que hay un problema enorme de conocimiento irrelevante. Mientras los incentivos académicos sigan premiando la cantidad de publicaciones por encima de su calidad, tanto para autores como para revistas, la ciencia estará cada vez más expuesta a un ciclo de producción que favorece la apariencia de conocimiento que el conocimiento en si. Y en ese camino, estamos dejando abierta la puerta a que proliferen prácticas contrarias a la ética del mundo científico.
