
El sector editorial puede preciarse de haber sido un pionero de la innovación técnica y tecnológica desde el comienzo de los tiempos y muy especialmente desde la revolución industrial. Si bien es cierto que esto alude más a sus aspectos formales, de reproducción y exhibición del producto final, en cambio, se percibe un cierto romanticismo estático por el cual adoptar nuevos avances en lo que se refiere al trabajo sobre sus contenidos, el fondo, pareciera de mal gusto o de baja calidad intelectual. Pasó con los primeros correctores ortográficos que incorporaban los procesadores de texto de los 90 y, algo después, con los ahora ya vetustos motores de traducción automática. Por supuesto, sucede ahora con los Modelos Extensos de Lenguaje o LLMs (por sus siglas en inglés).
Estas cuitas, que pueden ser de algún modo comprensibles y en determinados supuestos disculpables, provienen en buena medida también, como muchos otros males de nuestra sociedad, de un cierto tipo de elitismo; quizá de uno de los más feos: el elitismo intelectual o cultural. Una visión por la cual solo determinadas personas están capacitadas para producir textos de calidad, tanto en el fondo, como en la forma.
Pero, como hemos leído a todos los gurús durante los últimos dos años, si algo va a poner en jaque esta nueva revolución tecnológica, es precisamente la entidad de los trabajos considerados hasta ahora intelectuales y creativos.
Pues lo cierto es que todos sabemos que en la edición, producción y promoción de textos hay muchos trabajos que comportan, sí, un buen conocimiento de las reglas del lenguaje escrito, grandes conocimientos culturales, una cierta sensibilidad… pero a la vez, muchísimas horas de tediosa labor de revisión y pulido, en muchos casos repetitiva y meticulosa. Reconocer y diferenciar esta segunda faceta, si se quiere, más “de profesional” (no hablo del trabajo estrictamente intelectual), como algo optimizable gracias a la ayuda de máquinas de alta precisión y potencia, es el camino para abrazar más fácilmente este nuevo conjunto de avances tecnológicos. Pues no son más que eso.
Aplicaciones prácticas en la edición académica
Desde la aparición en noviembre de 2022 de ChatGPT, muchos hemos tenido una actitud exploradora y atrevida ante esta y las muchas otras herramientas que iban apareciendo y no negaré que, en muchos casos, se ha debido a querer tantear la posibilidad de ahorrar quebraderos de cabeza u horas de trabajo en tareas poco apetecibles.
Así, muchos hemos llevado a cabo pequeñas correcciones de textos, redacción de borradores de descripciones comerciales desde introducciones o prólogos, asignación o transformación de códigos de materias, extracción de metadatos y de palabras clave desde portadillas y páginas de créditos de libros, validación de errores al elaborar ficheros ePUB, composición automática de posts para redes sociales desde abstracts y un largo etcétera, de labores del día a día en una editorial académica, incluidas muchas de las que tienen fines promocionales o de marketing. Todo esto simplemente haciendo uso del prompting, que es la manera más básica de interacción con las IAs generativas comerciales que se presentan a través de un chat, también a través del uso de CustomGPTs como RAGs (Retrieval Augmented Generation) básicos, y sin exponer el contenido total de las obras, que en la mayoría de los casos siguen protegidas por derechos de autor. He aquí el gran argumento de los reticentes o incluso detractores…
Ponerse la venda antes de hacerse la herida (de los derechos de autor)
Comprendo perfectamente el temor que suscita entregar a una compañía tecnológica multinacional materiales con derechos de propiedad intelectual cuya explotación comercial ha de ser garantizada por contrato por nuestra parte con nuestros autores y autoras. No obstante, más allá de que la batalla legal que mantiene el sector editorial más comercial y la prensa con las empresas que usan o, han usado, sus textos para entrenar sus modelos de lenguaje pueda dar algún resultado favorable a la industria en forma de indemnizaciones o cánones, se asemeja poco relevante en el sector editorial académico reparar en esta cuestión cuando todo parece indicar que su futuro pasa por la publicación en Acceso Abierto y la impresión bajo demanda (POD). Más aún, cuando hace algunos años, casi todos los editores universitarios aceptaron enviar a Google sus fondos editoriales para que fueran escaneados masivamente para su proyecto de Google Books. Recordemos la Tercera Misión de la Universidad, que da nombre a una sección de este blog de la UNE.
Y por encima de todo eso, el temor a que la IA generativa comprometa los derechos de autor suele basarse en una concepción errónea de su funcionamiento. En su gran mayoría, los Modelos Extensos de Lenguaje no almacenan ni reproducen textos específicos en su memoria, sino que generan respuestas basadas en patrones estadísticos aprendidos a partir de grandes volúmenes de datos. Esto significa que no funcionan como bases de datos que "guarden" obras completas, sino como sistemas probabilísticos que predicen la siguiente palabra en función del contexto dado.
Además, las herramientas más avanzadas han implementado filtros y salvaguardas que limitan su capacidad para replicar contenidos protegidos. Incluso en los casos en los que han sido entrenadas con textos de dominio privado, la extracción de fragmentos completos es una anomalía en su diseño, no una función estándar.
Se puede ir aún más lejos y con seguridad
Cuando la UNE me invitó a escribir este artículo todavía faltaban tres días para la irrupción en el mercado del modelo chino DeepSeek y, más allá de la clara pugna geopolítica que se planteó con su aparición o de la mayor o menor potencia que tenga con respecto a otros modelos, pues eso cambia a gran velocidad, la clave para entender su relevancia ha sido el hecho de que exista la opción de su instalación en local en alguna de sus varias versiones de código abierto (posibilidad que ya existía con otros modelos, tanto europeos, como de grandes corporaciones que habían optado también por esta vía, como Mistral o Llama de Meta).
Este tipo de implementaciones brindan la posibilidad de usar la IA en nuestro entorno privado, sin volcar nuestros textos originales a los servidores de una compañía extranjera en la que hacemos bien, seguramente, en no confiar del todo. Ni siquiera si conectamos estos modelos locales con APIs de terceros servicios, para mejorar su rendimiento o posibilidades, siempre que desarrollemos estas instalaciones con las debidas salvaguardas, nos estaremos exponiendo de un modo significativo.
Esto nos habilita, potencia de cálculo de nuestros equipos mediante, a llevar a cabo tareas mucho más complejas con documentos de gran tamaño. Tareas que exceden el mero resumen o redactado de textos breves; tareas como la elaboración de índices onomásticos o de materias de formas mucho más automáticas; por supuesto, hacer correcciones ortotipográficas de todo el documento en segundos; o poder hacer modificaciones de formato con unas simples instrucciones escritas o dictadas. Y con la “seguridad” de que nuestra obra no será usada para entrenar otros motores o será filtrada antes de tiempo.
Acometer la accesibilidad en los libros
Uno de los desafíos más relevantes en el ámbito editorial en los próximos años será garantizar la accesibilidad de los libros para cumplir con la directiva europea al respecto que entrará en vigor desde junio de 2025. Sin duda, esta es una de las tareas que nos traerá de cabeza en los próximos meses o años y que podremos hacer más liviana con la ayuda de agentes de IA que automaticen tareas.
La IA generativa puede ser una aliada clave para automatizar procesos como la adaptación de textos, la generación de los metadatos necesarios que han de incluir los libros electrónicos, describir imágenes para lectores con discapacidades visuales que usan lectura en voz alta y la mejora de la navegación de documentos académicos mediante indexación automatizada. Estos usos no solo agilizarán el trabajo editorial, sino que también facilitarán el acceso a la información para un público más amplio.
Conclusión
La implementación de herramientas de IA en la edición académica no reemplaza la labor humana, sino que complementa y optimiza muchos procesos. Es evidente que, por ahora y seguramente siempre, necesitaremos la supervisión (nunca mejor dicho) de uno o varios ojos humanos, estos sí, altamente entrenados en revisar la labor de la máquina para simplemente (disculpen la aliteración) “visar” su corrección o no. No solo para garantizar trabajos meramente correctos, sino más bien para asegurarnos de su calidad y toque humano, su originalidad y, por supuesto, su interés científico, aunque esto sea tarea más habitual de los comités académicos de cada disciplina.
En mi opinión, dejar para más adelante la adopción e integración de estas herramientas, que ya muchos usan, pero que otros no se atreven a probar, sea por desconocimiento, pereza o resistencia al cambio o, peor aún, por reticencia intelectual, solo retrasará levemente su masiva implantación en la industria, pues aquellos que decidan no hacer gala del orgullo innovador que ha caracterizado al sector editorial desde sus orígenes, simplemente quedarán descolgados en modos de trabajar residuales (no por ello menos valiosos), como aquellos empresarios o contables que siguen llevando manuscritas sus finanzas en un cuadernillo con columnas de debe y haber o quienes prefieren seguir corrigiendo pruebas sobre el papel con boli rojo, por poner un ejemplo más de nuestra industria.
En cambio, aquellos que sepan aprovecharlas y exprimir sus muchos beneficios marcarán el ritmo de la evolución editorial en los próximos años. Huelga decir que, para conseguirlo, será necesaria, además de su predisposición, poner esfuerzos en la formación de los profesionales de la edición.