El lanzamiento prematuro de ALIA, el modelo de IA español, explica su arranque errático

El modelo de inteligencia artificial español ALIA no debió lanzarse cuando lo hizo, según ha explicado uno de sus principales responsables. En Xataka han conversado con Aitor González-Agirre, del Barcelona Supercomputing Center (BSC-CNS), para comprender el alcance y los objetivos del proyecto, y por qué compararlo con ChatGPT es inapropiado.

ALIA-40b es un modelo fundacional de IA de gran escala, coordinado por el BSC-CNS y beneficiado por la infraestructura del supercomputador MareNostrum 5, aunque de forma limitada. Comparar su rendimiento con el de GPT-5 o Gemini 3 es inadecuado, dado que su desarrollo es más modesto.

El 20 de enero de 2025, el presidente del Gobierno, Pedro Sánchez, anunció el lanzamiento de ALIA, una familia de modelos en castellano y lenguas cooficiales para fomentar la investigación. Incluso se mencionaron proyectos piloto para la Agencia Tributaria y la medicina de atención primaria. El BSC-CNS detalló que ALIA-40b era “el modelo fundacional multilingüe público más avanzado de Europa”, con 40.000 millones de parámetros, entrenado durante más de 8 meses en el MareNostrum 5 con 6,9 billones de tokens en 35 lenguas.

Sin embargo, la realidad era distinta. ALIA-40b fue criticado por su pobre rendimiento en pruebas iniciales, comparable al de Llama-2-34b, un modelo de 2023. Un estudio de la Universidad de Valencia concluyó que en exámenes de matemáticas tipo test puntuó peor que otros LLMs e incluso que la probabilidad de adivinar. El modelo ni siquiera figura en grandes comparativas como LLM-Stats, Artificial Analysis o LMArena.

La razón, según González-Agirre, es que el lanzamiento “no fue una decisión técnica”. El equipo tuvo que interrumpir el entrenamiento mucho antes de lo planeado. Aunque la intención era entrenar con 12 billones de tokens, decisiones estratégicas obligaron a parar cuando solo llevaban 2,3 billones. El modelo estaba en una fase de alta tasa de aprendizaje, sin llegar al refinamiento final, por lo que quedó “crudo”. Además, ALIA-40b se lanzó como modelo preentrenado, sin instrucciones ni alineamiento, por lo que solo completaba texto de formas inesperadas.

Meses después, esa fase inicial está completada y el comportamiento del modelo es mucho mejor. En comparación con modelos como Apertus-8b, Qwen y Llama-3, es el mejor en euskera y el segundo en catalán y gallego. La ventana de contexto se amplió a 160K tokens. Para final de año, el objetivo es tener un modelo con instrucciones que responda como se desea, aunque enfrentan obstáculos importantes.

Uno de los mayores desafíos es el conjunto de datos para el entrenamiento. Se utilizó Common Crawl, un repositorio de contenidos de internet usado sin pagar licencias, amparándose en la normativa y excepciones para minería de datos. El equipo debe regenerar conjuntos de datos para cumplir con los términos especificados. Además, el acceso a capacidad de cómputo se ha reducido notablemente: de 512 nodos del MareNostrum 5 pasaron a 256, luego a 128, y actualmente tienen solo 16 nodos dedicados, lo que impide el pretraining.

Otro problema crucial es que ALIA no tiene inferencia; no existe una app, sitio web o plataforma tipo chat para probar el modelo en directo, como ocurre con ChatGPT o Gemini. Esto impide recopilar datos de uso y retroalimentación de los usuarios.

González-Agirre destaca que la analogía es como la de coches privados y autobuses: “quien no tenga coche, que al menos pueda ir en autobús”. ALIA no pretende competir con ChatGPT, sino ser un modelo soberano, transparente y abierto, bajo licencia Apache. Prefieren usar un modelo soberano que saber cómo está hecho, frente a los modelos (más o menos) abiertos que llegan de China.

El futuro inmediato es prometedor: a finales de año esperan tener versiones usables con rendimiento parecido a modelos de su tamaño, trabajando también con un equipo Red Team para evitar jailbreaks. El objetivo a largo plazo es lograr capacidades de razonamiento, agénticas y de llamadas a herramientas. El camino es más difícil que el de las grandes empresas, pero el resultado, esperan, valdrá la pena.

**REDACCIÓN FV MEDIOS**

Derechos Reservados FGJ MULTIMEDIOS 2024