El uso de la inteligencia artificial (IA) en las diferentes etapas de la publicación científica está generando un intenso debate en la comunidad académica. Algunas publicaciones de primer nivel, como Science o Nature, han prohibido el uso de grandes modelos del lenguaje (large language models [LLM]) aludiendo a problemas éticos relativos a la autoría de los textos1. Sin embargo, gran parte de esta discusión parte de premisas obsoletas que necesitan ser replanteadas urgentemente. Al igual que resultaría absurdo penalizar a un investigador por utilizar un software de análisis de datos estadístico en lugar de realizar las operaciones manualmente, ¿tiene sentido cuestionar el uso de la IA cuando no es más que otra herramienta para optimizar la comunicación científica?
La realidad es que nos encontramos ante una revolución en la forma de comunicar la ciencia. Los LLM (como ChatGPT®, Claude®, Llama® o Mixtral®, entre otros) permiten hoy generar fácilmente textos impecables en términos de gramática y estructura3. La calidad científica de una publicación debe presuponer estos criterios, que con estas herramientas son directos, y poner el foco en los 4 criterios fundamentales: 1) originalidad, 2) rigurosidad metódica, 3) relevancia y 4) impacto del contenido científico, que son difícilmente automatizables2. Estos modelos se convierten en aliados esenciales para investigadores no anglófonos, dado que el inglés prevalece como lengua dominante en las principales revistas JCR.
Los LLM vienen a ocupar un espacio que tradicionalmente cubrían traductores automáticos estadísticos como DeepL® o traductores humanos quienes, pese a su competencia lingüística, a menudo carecían de familiaridad con la terminología específica y los matices propios de cada campo de investigación1.
Actualmente proliferan las guías y las recomendaciones para el uso de la IA en la publicación, en la revisión y en la edición de artículos de investigación4. Muchas sugieren explicitar el uso de estos modelos en la escritura, ya sea incluyéndola como coautor o mencionándola en los agradecimientos, especificando el modelo utilizado, su versión y fecha de uso. Sin embargo, estas recomendaciones carecen de fundamento. Los LLM son herramientas que generan texto de manera secuencial, respondiendo a las entradas del usuario y al contexto proporcionado. Esta naturaleza controlada implica que un LLM no puede ser responsable de su salida, ya que no genera texto si no es respondiendo a una petición concreta1.
La mención del uso específico de un LLM resulta irrelevante debido a su naturaleza estocástica. El parámetro interno de temperatura, que controla la aleatoriedad en la generación de cada token (fragmento de palabra generada secuencialmente), implica que incluso con entradas idénticas, la salida del modelo puede variar. Consecuentemente, ni siquiera utilizando la misma versión del modelo se garantiza la reproducibilidad del texto generado. Si consideramos los LLM como herramientas software avanzadas, no deberían requerir mención especial en créditos o agradecimientos. No agradecemos el uso de Google, de Web of Science, del lenguaje R o de SPSS®. ¿Por qué establecer una excepción para esta tecnología? Más aún, ¿qué sentido tendrá cuando estos modelos se integren en procesadores de texto como Word® u Overleaf®? Nunca tuvimos este trato de favor con el controvertido Clippy® de Microsoft® Word®.
La detección efectiva del uso de LLM en la generación de texto resulta técnicamente compleja, especialmente cuando se emplean técnicas para modificar el vocabulario del modelo. De hecho, estas modificaciones pueden hacer prácticamente imposible determinar si un texto ha sido asistido por IA, lo que cuestiona aún más la utilidad de políticas centradas en la detección en lugar de en la calidad del contenido.
Paradójicamente, mientras utilizamos sofisticadas herramientas estadísticas y tecnológicas en nuestras investigaciones, seguimos aferrados a una visión romántica y obsoleta del proceso de escritura científica. Esta situación recuerda a la Ley de Goodhart aplicada al ámbito académico: cuando convertimos la forma de escribir en un objetivo en sí mismo, dejamos de evaluar lo verdaderamente importante5. Al igual que las calificaciones académicas ya no predicen de forma fiable el desempeño profesional, la investigación de calidad tampoco se basa en atesorar Q1 y Q2 del JCR (haga su listado favorito de revistas predadoras aquí). Cuando usamos un indicador para tomar decisiones o evaluar el rendimiento, la gente comenzará a optimizar sus acciones para maximizar ese indicador. En este proceso, el indicador «escritura 100% humana» pierde su valor como medida real, porque se manipula en lugar de cumplir el objetivo final: conseguir publicaciones científicas de alta calidad.
Las revistas científicas necesitan evolucionar hacia un nuevo paradigma que evalúe el contenido real de las contribuciones, no los medios utilizados para expresarlas. Esto implica replantear nuestros procesos editoriales en 3 niveles fundamentales, cada uno con sus propios desafíos y oportunidades.
Para los autores, debemos abandonar la visión de la IA como una herramienta de «trampa» y reconocerla como lo que es: un asistente legítimo que permite centrarse en lo verdaderamente importante, la investigación. El uso de la IA de manera efectiva será lo habitual, similar a utilizar software estadístico avanzado en un análisis de datos. Sin embargo, existen riesgos potenciales del uso de LLM, en especial en áreas muy sensibles como la investigación médica3. Los artículos en este campo contienen mucha información contextual, con matices críticos y aspectos sutiles que requieren especial atención. Asimismo, el sesgo inherente a estos modelos de lenguaje exige un análisis humano meticuloso que garantice la integridad y precisión de los datos.
Para los revisores, la IA puede convertirse en una aliada que les permita centrarse en evaluar el contenido científico sustancial, liberándolos de la tediosa tarea de revisar aspectos formales. Un estudio reciente2, que analizó más de 3.000 artículos de conferencias científicas demuestra que las herramientas de IA alcanzan un rendimiento comparable al humano en las fases de verificación preliminar a la revisión por pares. Sin embargo, en las etapas posteriores, donde se evalúan criterios fundamentales como originalidad, importancia y rigurosidad, el impacto potencial de la IA resultó significativamente menor.
En el contexto de la labor editorial y de revisión, existe una preocupación crítica que a menudo se pasa por alto: la confidencialidad de la información. Al utilizar LLM basados en la nube (a diferencia de los modelos de código abierto o los ejecutados localmente), el contenido de los manuscritos se transfiere a plataformas externas que podrían incorporar estos datos en el entrenamiento de futuras versiones del modelo. Esto plantea importantes consideraciones sobre la gestión de contenido académico inédito y la responsabilidad de editores y revisores en la protección de la propiedad intelectual de los autores.
Los editores enfrentan el reto de redefinir las métricas de evaluación científica. La facilidad de reescritura que ofrecen los LLM no solo invalida los detectores de plagio tradicionales, sino que exige priorizar la valoración del contenido científico sobre los aspectos formales.
Las instituciones que prohíben el uso de la IA están cometiendo un error estratégico similar al de aquellas que en su momento se resistieron a la adopción de Internet o las bases de datos digitales. Están privando a sus investigadores de herramientas valiosas que podrían mejorar significativamente la calidad y el alcance de su trabajo. La solución no está en prohibir el uso de algoritmos generativos, sino en enseñar a utilizarlos de manera efectiva y responsable. La IA no es una amenaza para la integridad académica; es una oportunidad para democratizar y mejorar la comunicación científica a nivel global. Y desde luego no, no es hacer trampas.