Gobierno y autores negocian compensación por uso de obras en Alia, la IA española

Gobierno y autores negocian compensación por uso de obras en Alia, la IA española

Compensación a Creadores por el Uso de Contenidos en el Modelo de IA Alia

El Gobierno español está analizando estrategias para compensar a editores y creadores de contenidos por el uso de sus obras en el entrenamiento de su modelo soberano de inteligencia artificial (IA), denominado Alia. La herramienta se puso en marcha en enero sin un acuerdo de pago con los autores de los documentos utilizados, incluyendo materiales de repositorios online que recopilan libros sin autorización. La intención del Ejecutivo es resolver esta situación lo antes posible, manteniendo negociaciones con editores y examinando prácticas implementadas en otros países europeos con modelos similares de IA.

Modelos de Compensación en Otros Países

Según fuentes del Ministerio de Transformación Digital y de la Función Pública, se están realizando reuniones con representantes de Noruega y Países Bajos, quienes han adoptado enfoques diferentes para compensar a los creadores de contenido. Estos modelos servirán de referencia para desarrollar una propuesta adecuada para España, considerando su viabilidad en otros contextos.

En Noruega, se ha establecido un sistema de licencias que incluye pagos anuales a cambio de utilizar contenidos en su modelo público de IA. En septiembre, el gobierno anunció una asignación de 45 millones de coronas (aproximadamente cuatro millones de euros) anuales para pagar derechos de autor a editores de prensa, con planes de extender acuerdos a editores de libros y otros creadores en un futuro cercano.

Por su parte, los Países Bajos, que ya cuentan con el modelo GPT-NL, están negociando un sistema de participación en ingresos. Este modelo implica una compensación basada en la comercialización del sistema, en lugar de un pago fijo anual. Según información disponible, el cálculo se realizará mediante técnicas de minería de datos para determinar la representatividad de los contenidos en el modelo.

Posiciones en Negociaciones y Precedentes

Fuentes del Ministerio de Transformación Digital aseguran que existe la posibilidad de llegar a un acuerdo con los editores y subrayan la voluntad del Gobierno para encontrar una solución. La entidad de gestión de editores, Cedro, también mantiene la esperanza de alcanzar un entendimiento, aunque reconocen que aún existen diferencias significativas. Jorge Corrales, director general de Cedro, mencionó que en conversaciones anteriores se propuso un pago único de dos millones de euros, cuya aceptación se rechazó para no sentar un mal precedente ante las grandes tecnológicas que utilizan derechos de autor de sus asociados.

Adicionalmente, la patronal de editores pidió a Common Crawl, un repositorio que incluye obras en internet sin licencias, que eliminara los documentos de autores asociados a Cedro de su catálogo, solicitud que fue atendida. Common Crawl, que ha almacenado alrededor de 300.000 millones de páginas web desde 2007, es ampliamente utilizado por grandes tecnológicas para alimentar sus modelos de lenguaje.

Detalles del Modelo Alia y su Entrenamiento

Desde su lanzamiento en enero, Alia es un proyecto abierto que puede ser utilizado por particulares y empresas para desarrollar sus propias herramientas de IA generativa. La inversión en este modelo ha sido de aproximadamente 10 millones de euros. Se justifica en el uso de documentos en la fase de entrenamiento, que le permiten obtener las referencias necesarias para su funcionamiento. Aunque el contenido en español, catalán, gallego, valenciano y vasco representa solo el 20% del total, esta proporción es significativamente superior a la de modelos populares como ChatGPT y Gemini, buscando así una mayor contextualización en el uso del idioma.

El Ministerio de Transformación Digital asegura que el modelo se ha alimentado de documentación pública oficial, incluyendo boletines del BOE, registros mercantiles y otras fuentes, además de los recursos de Common Crawl.

Aspectos Legales en el Entrenamiento de Modelos de IA

Los grandes modelos de lenguaje (LLM) aplican algoritmos sobre vastas bases de datos de texto para extraer patrones y generar contenidos. La cantidad de datos necesarios para entrenar efectivamente a estos modelos es considerable. Por ejemplo, se estima que las últimas versiones de ChatGPT han utilizado una gran parte de internet, a menudo sin obtener los permisos necesarios. Esto ha llevado a múltiples demandas en EE.UU. de creadores contra gigantes de la IA por el uso no autorizado de sus obras.

Recientemente, Anthropic, responsable del chatbot Claude, alcanzó un acuerdo extrajudicial con un grupo de escritores, comprometiéndose a pagar al menos 1.500 millones de dólares para evitar un juicio por el uso no autorizado de libros en el entrenamiento de sus modelos. Este acuerdo marca un precedente en la gestión de derechos de autor en el ámbito de la inteligencia artificial.

Puede que te interese