Dick Schoof, primer ministro holandés. EFE

Holanda impulsa acuerdos con los editores para desarrollar su IA estatal

El Gobierno de Dick Schoof marca camino a otros países como España al reconocer los derechos de autor para el entrenamiento de los modelos de lenguaje en el ámbito público

Viernes, 18 de julio 2025, 08:52

Países Bajos marca un punto de inflexión en el desarrollo de la inteligencia artificial. Este jueves, el gobierno neerlandés ha reconocido que su modelo estatal de lenguaje, GPT-NL, necesita autorización expresa de los autores para utilizar sus textos en el proceso de entrenamiento. Un paso que podría redefinir las reglas del juego en el sector de la IA, especialmente en el ámbito público.

Publicidad

El Ejecutivo neerlandés fue uno de los primeros en apostar por modelos de inteligencia artificial impulsados desde lo público, como alternativa a los gigantes privados estadounidenses y chinos: ChatGPT, Gemini o DeepSeek. Una senda que poco después seguiría el Gobierno español con la presentación de ALIA, su proyecto para «proteger el español». Ambos modelos, como aseguran sus promotores, se han entrenado con «datos de alta calidad». Pero ahora Países Bajos marca distancia.

«A diferencia de algunos modelos internacionales que utilizan 'una copia de internet' como material de entrenamiento, GPT-NL recopila datos protegidos por derechos de autor de forma cuidadosa y ética, y recompensa a quienes contribuyen con su contenido», ha afirmado el gobierno neerlandés. Un posicionamiento que deja en entredicho a otros desarrollos públicos que aún no han aclarado del todo cómo han obtenido los datos para alimentar sus modelos. Uno de ellos es el español ALIA, ya bajo la lupa de las organizaciones que velan por la propiedad intelectual.

Las especificaciones técnicas del proyecto ALIA mencionan los conjuntos de datos utilizados para entrenar el modelo. Entre las fuentes citadas están GitHub, Wikipedia, EurLex, y también Common Crawl, una base de datos que ha despertado fuertes críticas por recopilar contenidos masivos de internet sin autorización. «Sí, el Gobierno lo ha usado y lo reconoce públicamente en sus propias webs», afirmó la abogada especializada en propiedad intelectual Eva Moraga, durante una comparecencia parlamentaria en junio. «Common Crawl recoge contenidos sin autorización previa», añadió. Pese a ello, los responsables del modelo destacan que se trata de «un repositorio gestionado por una organización sin ánimo de lucro, actualizado mensualmente y distribuido bajo licencia de dominio público CC0 1.0».

En enero de 2025, Cedro (Centro Español de Derechos Reprográficos) logró que Common Crawl eliminara contenidos editoriales españoles de su repositorio, reconociendo así que su inclusión era, como mínimo, problemática. Sin embargo, para entonces, el entrenamiento —o al menos el preentrenamiento— de los modelos ya se había completado. «¿Quién vigila al vigilante?», se preguntaron entonces varios senadores.

Publicidad

Lucha por los derechos de autor

Cada vez más usuarios recurren a ChatGPT de OpenAI o Gemini de Google para obtener respuestas inmediatas. Detrás de esa interacción aparentemente sencilla hay centenares de reglas matemáticas, modelos estadísticos y redes neuronales entrenadas con enormes volúmenes de texto.

Estos conjuntos de datos cubren todo tipo de temas, desde salud y ciencia hasta economía y política. Los tokens —fragmentos de palabras o signos de puntuación— son extraídos de fuentes originales mediante técnicas de scraping, es decir, la recolección automatizada de información en internet. En la mayoría de los casos, este proceso se realiza sin consentimiento ni compensación para los autores de los contenidos.

Publicidad

Países Bajos busca precisamente revertir esa lógica. «Hemos alcanzado acuerdos para que los editores reciban una compensación adecuada cuando el modelo se lance al mercado», subraya el Ejecutivo. «Esto garantiza el cumplimiento de las normativas europeas, incluida la Ley de Inteligencia Artificial», añaden.

El reconocimiento oficial del Gobierno neerlandés añade presión a los países que han impulsado modelos de inteligencia artificial desde lo público. La cuestión sobre el origen de los datos y el respeto a los derechos de autor se perfila como uno de los principales retos regulatorios en el despliegue de estas tecnologías. Mientras tanto, el debate sigue abierto tanto en los parlamentos como entre los desarrolladores.

Este contenido es exclusivo para suscriptores

Disfruta de acceso ilimitado y ventajas exclusivas

Publicidad