Título: Todo empieza pidiéndole una cosa a una IA. Cuando la IA se lo pide a otras IA comienza el caos
Contenido:
Javier Pastor
Javier Pastor
En el contexto del juego del “teléfono escacharrado”, un grupo de personas transmite un mensaje de manera secreta y sucesiva, lo que a menudo resulta en una distorsión significativa del mensaje original al llegar al último destinatario. Este fenómeno se presenta de manera similar en los prometedores agentes de inteligencia artificial (IA), generando serias preocupaciones sobre su funcionamiento.
Errores acumulados. El investigador Toby Ord, de la Universidad de Oxford, publicó recientemente un estudio sobre agentes de IA. En su trabajo, abordó el problema del error acumulado. Estos agentes operan de manera autónoma en múltiples etapas para resolver problemas, como la creación de código para tareas específicas. Sin embargo, un error en una etapa puede acumularse y amplificarse en las etapas subsiguientes, comprometiendo así la precisión de la solución final, que puede distar considerablemente de lo que realmente se pretende.
La IA puede programar, pero no durante mucho tiempo seguido. Ord propone la noción de “vida media” de un agente de IA, que estima la tasa de éxito en función de la duración de la tarea. Por ejemplo, un agente con una vida media de 2 horas tendría un 50% de éxito en tareas de esa duración. El mensaje es claro: a medida que aumenta el tiempo de trabajo del agente de IA, disminuyen las probabilidades de éxito. El experto en IA Benjamin Todd también lo expresó de forma contundente: una IA puede programar durante una hora con pocos errores, pero no durante diez horas. Aunque estas cifras no son definitivas, ilustran el hecho de que los agentes de IA, al menos por ahora, no pueden funcionar indefinidamente debido al efecto de los errores acumulados.
Los humanos tampoco nos salvamos. Es importante destacar que un fenómeno similar ocurre con el rendimiento humano en tareas prolongadas. El estudio de Ord señala que la tasa de éxito disminuye notablemente: después de 15 minutos, se sitúa en aproximadamente el 75%; tras una hora y media, en el 50%; y después de 16 horas, apenas llega al 20%. Todos somos propensos a cometer errores en tareas encadenadas, donde un fallo puede afectar drásticamente el desarrollo posterior.
LeCun ya avisó. Yann LeCun, quien lidera los esfuerzos de investigación en IA en Meta, ha advertido durante tiempo sobre los problemas relacionados con los modelos de lenguaje grande (LLM). En junio de 2023, indicó que los LLM autoregresivos tienen dificultades para ser precisos y evitar respuestas inapropiadas. Explicó que existe una alta probabilidad de que el token generado por un modelo nos desvíe de las respuestas correctas, y cuanto más larga sea la respuesta, más difícil será que sea correcta.
Para eso está la corrección de errores. Para mitigar este problema, es fundamental reducir la tasa de errores en los modelos de IA. Este concepto es ampliamente reconocido en la ingeniería de software, donde se recomienda realizar revisiones tempranas de código siguiendo una estrategia “shift left” en el ciclo de desarrollo: cuanto antes se detecte un error, más fácil y económico será corregirlo. En cambio, si no se lleva a cabo esta revisión, el costo de corregir un error aumenta exponencialmente con el tiempo.
Editado con FGJ CONTENT REWRITER