El modelo de inteligencia artificial español ALIA no debió lanzarse cuando lo hizo, según ha revelado una entrevista con uno de sus principales desarrolladores. ALIA-40b es un modelo fundacional de IA coordinado por el Barcelona Supercomputing Center (BSC-CNS), que se benefició de la infraestructura del supercomputador MareNostrum 5, aunque con limitaciones.
Comparar su rendimiento con modelos como GPT-5 o Gemini 3 es inapropiado, ya que su desarrollo es más modesto. El 20 de enero de 2025, el presidente del Gobierno, Pedro Sánchez, anunció su lanzamiento, presentándolo como una familia de modelos en castellano y lenguas cooficiales para fomentar la investigación.
Según el BSC-CNS, ALIA-40b es “el modelo fundacional multilingüe público más avanzado de Europa con 40.000 millones de parámetros”, entrenado con 6,9 billones de tokens en 35 lenguas. Sin embargo, la realidad era distinta. Las pruebas iniciales mostraron un rendimiento pobre, comparable al de Llama-2-34b, un modelo de 2023. Un estudio de la Universidad de Valencia concluyó que en exámenes de matemáticas puntuó peor que adivinar al azar.
El modelo ni siquiera figura en grandes comparativas como LLM-Stats o LMArena. Aitor González-Agirre, responsable del desarrollo en el BSC, explicó que aquel lanzamiento “no fue una decisión técnica”. El entrenamiento se interrumpió prematuramente por decisiones estratégicas. Aunque planeaban entrenar con 12 billones de tokens, tuvieron que lanzarlo tras solo 2,3 billones, cuando el modelo aún estaba “crudo”.
Además, ALIA-40b se lanzó como modelo preentrenado, sin instrucciones ni alineamiento. “Solo era un modelo que completaba texto”, afirma González-Agirre. Actualmente, el comportamiento ha mejorado: es el mejor modelo en euskera y el segundo en catalán y gallego, con una ventana de contexto ampliada a 160K tokens.
El equipo espera tener a final de año “un modelo que tenga instrucciones y que responda como nosotros queremos”, pero enfrenta obstáculos. Uno es el conjunto de datos: utilizaron Common Crawl, un repositorio de contenidos de internet, amparándose en excepciones para minería de datos. Ahora deben regenerar esos conjuntos para cumplir con los términos legales.
La capacidad de cómputo también es un límite. Aunque tuvieron acceso a 512 nodos de MareNostrum 5, ahora disponen de solo 16 nodos dedicados, lo que impide el pretraining. “Con ChatGPT hicieron centenares de versiones distintas y se quedaron con la buena”, señala González-Agirre, mientras que ALIA solo pudo entrenarse una vez.
Otro problema crucial es la falta de inferencia: no hay una plataforma como chat.alia.es para probar el modelo en directo, lo que priva al equipo de datos valiosos sobre el uso. “No tenemos datos de los prompts que está usando la gente”, lamenta.
Para González-Agirre, la analogía es clara: los modelos comerciales son como coches privados, y ALIA es el autobús. “Quien no tenga coche, que al menos pueda ir en autobús”. Subraya la importancia de un modelo soberano y transparente, con licencia Apache.
El futuro inmediato es prometedor: “A finales de año tendremos versiones muy usables del modelo con un rendimiento parecido a modelos de su tamaño”. Trabajarán en capacidades de razonamiento y agentes, aunque el camino es más difícil que el de las grandes tecnológicas que actúan “sin pedir ni permiso ni perdón”.
**REDACCIÓN FV MEDIOS**