Javier Pastor
Si usas un chatbot, ¿por qué usas ese y no otro? Es una pregunta sencilla, pero la respuesta difícilmente será defintiva. Lo normal es que los usuarios respondan que usan el chatbot X (sea ChatGPT, Copilot, Gemini, Claude o cualquier otro) porque les funciona bien para lo que quieren, pero la duda quedará en el aire. ¿Hay uno mejor para eso que quiero hacer?
Lo curioso es que a estas alturas seguimos sin saberlo. Existen un buen montón de benchmarks que tratan de evaluar el rendimiento de estos modelos de IA, pero de lo que esas pruebas nos dicen a la experiencia real suele haber bastante diferencia. Lo que a unos les parece una buena respuesta puede no parecérselo a otros, y cada escenario cambia porque los chatbots no suelen responder exactamente lo mismo cuando les preguntamos.
Lo comentaban en The New York Times destacando cómo a menudo cuando alguna empresa presenta su nuevo modelo de IA, lo hace con afirmaciones subjetivas y difícilmente comprobables, como por ejemplo que tienen “capacidades mejoradas” sin especificar por qué.
Es un problema real de la industria. No sabemos si Gemini escribe mejor código que ChatGPT o Copilot. O si ChatGPT Plus, que es de pago, realmente merece la pena en cuanto a calidad de sus respuestas. O qué modelo de generación de imágenes es mejor creando caras realistas de gente, aunque aquí la subjetividad y las opiniones personales juegan un papel aún más importante.
El A.I. Index, un interesante estudio reciente del Instituto para la IA Centrada en Humanos de la Universidad de Stanford, precisamente lo recalca en su segundo apartado, en el que habla del rendimiento técnico de los modelos.
Los investigadores que han realizado este completísimo informe —fácil de leer y entender por el protagonismo de lo visual— dejaban claro en primer lugar que la inteligencia artificial supera a los seres humanos en algunas tareas, pero no en todas.
Luego dejaban claro que los modelos de IA actuales han llegado a saturar las pruebas actuales. ImageNet, SQuAD o SuperGLUE, que hasta no hace mucho eran buenas varas de medir para los modelos de IA, ya no sirven: los modelos se han vuelto demasiado buenos.
Lo que se está haciendo ahora es crear pruebas aún más exigentes, como SWE-bench para la generación de código, HEIM para la generación de imágenes, MMMU para el razonamiento general, MoCa para el razonamiento moral, AgentBench para el comportamiento de agentes de IA y HaluEval para analizar si los modelos “alucinan”.
Hay también una métrica que cada vez es más importante para los usuarios. Una que no es sintética como tal, sino que precisamente se basa en la puntuación que los humanos le damos a estos modelos.
Un modelo puede puntuar muy alto en un benchmark de generación de texto, pero ¿qué le parece a un usuario que lo usa? Sistemas como Chatbot Arena Leaderboard, que registran el “sentimiento público” sobre un chatbot —cualquiera puede votar a su chatbot preferido—, son cada vez más relevantes a la hora de monitorizar cómo y cuánto avanzan estos modelos de IA.
Eso lo vimos recientemente cuando apareció Claude 3 Opus. El nuevo modelo de Anthropic tiene un comportamiento en benchmarks que parece superar incluso a GPT-4 —hasta ahora, la referencia— en algunos escenarios “sintéticos”. Lo importante, no obstante, es que lo superaba en puntuación ELO en el citado Chatbot Arena Leaderboard —en estos momentos GPT-4 ha recuperado el trono—, lo que básicamente significaba una cosa.
La gente “prefiere” Claude 3 Opus a GPT-4. Tienen la sensación de que es mejor.
Eso se está convirtiendo cada vez más en una forma de “fiarse” de un chatbot y no de otro. En el mundo de los procesadores, los benchmarks suelen dar una idea muy clara de lo que podemos esperar de ellos. Es cierto que las pruebas sintéticas son también una referencia y pueden no coincidir exactamente con la experiencia final, pero podemos firanos bastante de esos resultados.
Con los modelos de IA la cosa no está tan clara, y eso es un problema. Uno que parece que por el momento va a ser muy difícil resolver.
Imagen | Chrypnotoad con Midjourney