La avanzada suite de video AI de Alibaba

El resumen: El Laboratorio Tongyi de Alibaba acaba de lanzar Wan2.1, un conjunto de potentes modelos de generación de video de código abierto que superan a los modelos SOTA de código abierto y cerrado como Sora en métricas clave, mientras generan videos a 2.5 veces la velocidad.
Los detalles:
Wan2.1-T2V-14B encabeza la tabla de líderes de VBench, destacándose en áreas como la dinámica de movimiento complejo, la simulación de física del mundo real y la generación de texto. Todos los modelos admiten texto a video, imagen a video y video a audio, y son los primeros con la capacidad de representar texto en inglés y chino. Las herramientas de edición de Wan incluyen inpainting y outpainting de video, referencia de múltiples imágenes y la capacidad de mantener estructuras y personajes existentes. La versión lanzada también incluye una versión ligera de 1.3B capaz de funcionar en hardware de consumo: puede generar un clip de 5 segundos en 480P en una RTX 4090 en 4 minutos.
Por qué es importante: otro día, otro sorprendente lanzamiento de código abierto de China. Wan es una continuación de la calidad acelerada que hemos visto en lanzamientos recientes como el Veo 2 de Google, con signos evidentes de IA (movimiento entrecortado, artefactos, etc.) prácticamente eliminados. Entre Qwen y Wan, Alibaba está trayendo el calor del código abierto en 2025.

Derechos Reservados FGJ MULTIMEDIOS 2024