Publicada

Un entorno de inteligencia artificial (IA) plenamente europeo permitiría que cualquier organismo público, pyme o universidad acceda a un modelo de lenguaje multilingüe sin depender de gigantes tecnológicos externos

Esa es la ambiciosa meta de OpenEuroLLM, un consorcio formado por más de 20 centros de investigación y empresas europeas, entre las que figuran, por parte de España, el Barcelona Supercomputing Center (BSC) y la spin-off Prompsit, con sede en el Parque Científico de la Universidad Miguel Hernández (UMH) de Elche.

El propósito de este proyecto es desarrollar un modelo fundacional de IA multilingüe que cubra más de 30 lenguas europeas, incluidas las cooficiales y algunas de países candidatos a la Unión Europea. Esta iniciativa busca que esta región cuente con una infraestructura sólida que refuerce su soberanía digital y garantice la diversidad lingüística en el entorno global de la inteligencia artificial.

“Sigue habiendo una gran dependencia de modelos desarrollados fuera de la UE, donde ni los datos ni el código son realmente abiertos”, señala Gemma Colomina, directora general de Prompsit y traductora de formación, en la conversación por videollamada que mantiene con DISRUPTORES-EL ESPAÑOL.

“Si queremos una auténtica soberanía digital, debemos asegurarnos de que cualquier entidad europea, sea pública o privada, pueda adaptar el modelo a sus necesidades y cumpla con nuestra normativa de protección de datos”, recalca.

Más de 30 lenguas

Prompsit nació hace casi veinte años del grupo de investigación Transducens de la Universidad de Alicante, cuando la traducción automática de código abierto daba sus primeros pasos. “Éramos becarios que vimos la oportunidad de montar servicios profesionales alrededor de la tecnología que se desarrollaba en la Universidad”, recuerda Colomina. 

“Empezamos con encargos de traducción personalizada y fuimos creciendo hacia análisis de opinión, clasificación de textos y soluciones para empresas y administraciones públicas”, explica.

Con el paso de los años, y a medida que las tecnologías evolucionaban, el sector viró hacia los modelos de lenguaje masivos (LLMs, por sus siglas en inglés), capaces de resumir, generar texto o responder preguntas en distintos idiomas. 

Ahora son especialistas en la creación y limpieza de corpus masivos. “La gran diferencia está en los datos”, explica Colomina. “Una traducción automática puede funcionar con menos recursos, pero para entrenar modelos de lenguaje que funcionen bien en varios idiomas se requiere un volumen brutal de textos de alta calidad”.

Este reto es justo la misión de Prompsit en esta iniciativa europea. Su función es liderar la recopilación y limpieza de datos para un conjunto de 37 lenguas europeas, incluidas cooficiales y de países candidatos. “Algunas, como el irlandés, el maltés o el albanés, resultan un gran reto por tener muy pocos recursos digitales”, detalla Colomina.

El proceso implica rastrear portales de datos abiertos, webs institucionales o bibliotecas nacionales, siempre verificando que los textos cuenten con licencias adecuadas para su uso. “Una vez que se completa esa criba, enviamos los datos a los centros de supercomputación, donde se entrenará el nuevo LLM”, relata.

El reto de los datos y la supercomputación

Sin embargo, disponer de la infraestructura de supercomputación necesaria no es tan sencillo. “Los procesos de adjudicación de horas de GPU están más orientados a campos como la genómica. Entrenar un modelo de lengua requiere semanas o meses de uso continuo, y cualquier interrupción te manda de nuevo a la cola”, lamenta Colomina.

Este es uno de los grandes motivos por los que desde este consorcio se está trabajando para lograr una mejor coordinación en los centros de supercomputación europeos. “Si la UE quiere competir con Estados Unidos o China, no podemos malgastar recursos porque haya que parar y reanudar el entrenamiento cada dos por tres. Es fundamental tener un acceso fluido a la potencia de cálculo”, insiste la directora de Prompsit.

Mäs allá de estos retos técnicos, este proyecto busca “democratizar el acceso a la IA” y preservar la diversidad lingüística de la Unión Europea. “Casi todos los grandes modelos del mercado están entrenados principalmente en inglés, lo que los hace menos eficaces en otras lenguas. Queremos que los idiomas cooficiales y las lenguas de países más pequeños estén en igualdad de condiciones”, explica Colomina.

Según explica, muchos de los modelos punteros no ofrecen transparencia en la procedencia de sus datos ni en el proceso de entrenamiento. “Queremos una total apertura de la información, tanto en el corpus empleado como en la metodología, para que cualquier institución europea pueda auditar y adaptar el modelo a su propio contexto”, apunta. 

Democracia lingüística y transparencia

Con el apoyo de instituciones como el BSC y otras entidades de todo el continente, OpenEuroLLM se plantea sentar las bases de la próxima generación de modelos de lenguaje europeos. “Si todo va bien y conseguimos acceso continuo a la supercomputación, podremos ofrecer un LLM multilingüe de referencia a nivel mundial”, augura la directiva. 

Con él, las administraciones públicas, las grandes empresas, las pymes y los desarrolladores podrían construir aplicaciones tan diversas como” la traducción administrativa, la clasificación de textos, la asistencia en centros de atención ciudadana o la docencia en entornos bilingües”, enumera. Y todo sin depender de proveedores externos que no cumplan con la legislación europea. 

Pese a la existencia de modelos abiertos, Colomina incide en que no todos muestran realmente sus cartas. “Algunos se venden como open source, pero sin dar acceso a la información sobre qué textos se han empleado y qué licencia les ampara. En cambio, en OpenEuroLLM apostamos por la trazabilidad total”, asegura. 

“No se trata simplemente de competir —concluye Colomina—, sino de asegurar que el desarrollo tecnológico refleje las lenguas, la cultura y los valores europeos. Y para eso hace falta un modelo grande, abierto y multilingüe que nazca aquí, con estándares de calidad y un escrupuloso respeto a la legislación comunitaria”.