Actualización de Microsoft Phi 3.5: una nueva referencia en el rendimiento de la IA

Actualización de Microsoft Phi 3.5: una nueva referencia en el rendimiento de la IA – Notas clave

  • La serie Phi 3.5 de Microsoft incluye tres modelos avanzados: mini-instruct, MoE-instruct y vision-instruct.
  • Phi-3.5-mini-instruct destaca en tareas de razonamiento en entornos de memoria limitada, con capacidades multilingües.
  • Phi-3.5-MoE-instruct utiliza una arquitectura de “Mezcla de Expertos” que equilibra la eficiencia y el rendimiento específico de la tarea.
  • Phi-3.5-vision-instruct integra el análisis multimodal, gestionando con facilidad tareas complejas de procesamiento de texto e imágenes.

Phi 3.5 Actualizado por Microsft

Con el lanzamiento de la serie Phi 3.5, Microsoft vuelve a ser pionera. Esta extraordinaria gama, compuesta por los modelos Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct y Phi-3.5-vision-instruct, ha conmocionado a la comunidad de IA, mostrando un rendimiento sin precedentes y capacidades polifacéticas. Diseñados para responder a una amplia gama de aplicaciones, desde entornos con recursos limitados hasta tareas complejas de razonamiento y análisis multimodal, estos modelos son un cambio de lo que se puede conseguir con la tecnología de IA más avanzada.

Phi-3.5-mini-instrucción: Compacto pero formidable

Aggregated Benchmarks of Phi-3.5-mini-instruct <a href=

El modelo Phi-3.5-mini-instruct es un verdadero testimonio del compromiso de Microsoft por ampliar los límites de la eficiencia de la IA. Con tan solo 3.800 millones de parámetros, esta potencia ligera desafía la sabiduría convencional al superar a modelos más grandes de gigantes del sector como Meta y Google en multitud de pruebas comparativas. Su destreza radica en su capacidad para ofrecer funciones de razonamiento excepcionales, lo que la convierte en la opción ideal para escenarios que exigen un sólido razonamiento basado en la lógica, la generación de código y la resolución de problemas matemáticos, todo ello en entornos con limitaciones de memoria y computación.

Una de las características más destacadas de la miniestructura Phi-3.5 es su notable competencia multilingüe. Gracias a un riguroso entrenamiento con un corpus de datos que abarca varios idiomas, este modelo ha alcanzado un rendimiento casi de vanguardia en tareas conversacionales multilingües y multiturno. Tanto en diálogos como en tareas lingüísticas complejas, Phi-3.5-mini-instruct se adapta a la perfección a diversos entornos lingüísticos, garantizando un rendimiento constante y fiable en una amplia gama de idiomas.

Excelencia de referencia

Benchmarks of Microsoft's Phi-3.5-mini-instruct <a href=

Para ilustrar las proezas de la miniestructura Phi-3.5, analicemos su rendimiento en varias pruebas de referencia reconocidas en el sector:

  • RepoQA: Diseñado para evaluar la comprensión de código en contextos largos, el Phi-3.5-mini-instruct superó a sus homólogos de mayor tamaño, incluidos Llama-3.1-8B-instruct y Mistral-7B-instruct, lo que demuestra su excepcional aptitud para comprender y razonar sobre bases de código complejas.
  • MMLU multilingüe: En esta prueba, que evalúa la comprensión de lenguajes multilingües en varios dominios y niveles de experiencia, Phi-3.5-mini-instruct obtuvo una notable puntuación del 55,4%, superando el rendimiento de modelos como Mistral-7B-Instruct-v0.3 y Llama-3.1-8B-Ins.
  • Benchmarks de contexto extenso: En tareas que exigen el procesamiento de contexto extenso, como GovReport, QMSum y SummScreenFD, Phi-3.5-mini-instruct demostró su capacidad para mantener la coherencia y la precisión, superando a modelos de mayor tamaño como Gemini-1.5-Flash y GPT-4o-mini-2024-07-18 (Chat).

Estos resultados ponen de manifiesto las excepcionales capacidades de la minicadena Phi-3.5 y demuestran que es capaz de rendir muy por encima de sus posibilidades en una amplia gama de tareas.

Phi-3.5-MoE-instruct: Una mezcla de experiencia

El modelo Phi-3.5-MoE-instruct representa un enfoque innovador de la arquitectura de IA, que aprovecha el concepto de “Mezcla de Expertos” (MoE). Este innovador diseño combina múltiples modelos especializados, cada uno de los cuales destaca en tareas específicas, en un único marco cohesionado. Con un asombroso total de 42.000 millones de parámetros, pero sólo 6.600 millones activos durante la generación, la Phi-3.5-MoE-instruct logra un notable equilibrio entre eficiencia computacional y rendimiento.

Adaptación dinámica de tareas

Una de las principales ventajas de la arquitectura de la Phi-3.5-MoE-instruct es su capacidad para cambiar dinámicamente entre distintos “expertos” en función de la tarea que se esté realizando. Esta asignación inteligente de recursos garantiza que se utilice el modelo más relevante y especializado para cada tarea específica, lo que se traduce en una precisión y eficiencia sin precedentes. Phi-3.5-MoE-instruct se adapta a la perfección, aprovechando la experiencia colectiva de los modelos que lo componen, ya se trate de abordar complejos retos de codificación, resolver intrincados problemas matemáticos o navegar por los matices de la comprensión de lenguajes multilingües.

Dominio de las pruebas de referencia

El rendimiento de Phi-3.5-MoE-instruct en las pruebas de referencia del sector es extraordinario. En la aclamada prueba MMLU (Massive Multitask Language Understanding), que evalúa modelos en una amplia gama de temas y niveles de experiencia, Phi-3.5-MoE-instruct superó a GPT-4o-mini de OpenAI en el escenario de 5 disparos. Este logro subraya las excepcionales habilidades de razonamiento del modelo y su capacidad para abordar tareas complejas y polifacéticas con una destreza inigualable.

Además, las proezas del Phi-3.5-MoE-instruct van más allá de la comprensión del lenguaje. En el ámbito de la generación de código, evaluado por pruebas como HumanEval y MBPP, el modelo superó sistemáticamente a sus competidores, demostrando su capacidad para generar código preciso y eficiente en diversos lenguajes y dominios de programación.

Phi-3.5-vision-instruct: Posibilidades multimodales

En el actual panorama de abundancia de datos, en el que la información se presenta a menudo en varios formatos, como texto, imágenes y vídeos, la necesidad de modelos de IA capaces de integrar y comprender a la perfección estas diversas modalidades nunca ha sido tan acuciante. Entra en escena Phi-3.5-vision-instruct, el vanguardista modelo multimodal de Microsoft que combina a la perfección las capacidades de procesamiento de texto e imágenes en un único y potente marco de trabajo.

Con 4.200 millones de parámetros y una arquitectura especializada que incluye un codificador de imágenes, un conector, un proyector y el modelo de lenguaje Phi-3-Mini, la Phi-3.5-vision-instruct está equipada de forma única para abordar una amplia gama de tareas multimodales. Desde la comprensión general de imágenes y el reconocimiento óptico de caracteres hasta la comprensión de gráficos y tablas, pasando por el resumen de vídeos, este modelo está llamado a revolucionar la forma en que interactuamos y extraemos información de diversas fuentes de datos.

Dominio multimodal

Una de las características más destacadas del Phi-3.5-vision-instruct es su capacidad para manejar con facilidad tareas visuales complejas de múltiples fotogramas. Tanto si se trata de comparar imágenes de diferentes puntos temporales como de resumir una secuencia de fotogramas, la amplia longitud de contexto de 128.000 tokens del modelo le permite mantener la coherencia y la precisión a lo largo de todo el proceso. Esta capacidad sitúa al Phi-3.5-vision-instruct a la altura de competidores mucho más grandes, como el GPT-4o, al tiempo que ofrece una solución más eficiente y que consume menos recursos.

Excelencia de referencia

El rendimiento de la Phi-3.5-vision-instruct en las pruebas de referencia del sector es un testimonio de su destreza multimodal. En tareas que tradicionalmente requieren modelos mucho más grandes, la Phi-3.5-vision-instruct supera sistemáticamente a sus competidoras, ofreciendo un rendimiento de vanguardia en escenarios con gran cantidad de imágenes. Ya se trate de reconocimiento óptico de caracteres, comprensión de gráficos o resumen de vídeos, este modelo demuestra constantemente su capacidad para extraer información y generar resultados precisos y significativos a partir de fuentes de datos multimodales.

Régimen de entrenamiento: En busca de la excelencia

El excepcional rendimiento de la serie Phi 3.5 puede atribuirse, en parte, al riguroso régimen de entrenamiento empleado por los expertos en IA de Microsoft. Cada modelo se sometió a un meticuloso proceso de entrenamiento, aprovechando las técnicas más avanzadas y los vastos recursos computacionales para garantizar un rendimiento y una robustez óptimos.

  • Phi-3.5-mini-instruct: El modelo Phi-3.5-mini-instruct, que se entrenó con 3,4 billones de tokens utilizando 512 GPU H100-80G durante un periodo de 10 días, se expuso a un corpus de datos muy diverso que le permitió desarrollar un profundo conocimiento de varios dominios y lenguajes.
  • Phi-3.5-MoE-instruct: El proceso de entrenamiento del modelo Phi-3.5-MoE-instruct fue aún más exhaustivo: duró 23 días y utilizó 512 GPU H100-80G para entrenar 4,9 billones de tokens. Este amplio régimen de entrenamiento permitió al modelo desarrollar y perfeccionar sus “expertos” especializados, garantizando un rendimiento óptimo en una amplia gama de tareas.
  • Phi-3.5-vision-instruct: Para dotar a Phi-3.5-vision-instruct de su capacidad multimodal, Microsoft empleó 256 GPU A100-80G para entrenar el modelo con 500.000 millones de tokens de visión y texto durante un periodo de 6 días. Este riguroso proceso de entrenamiento permitió al modelo desarrollar una profunda comprensión de las intrincadas relaciones entre los datos visuales y de texto, sentando las bases de su excepcional rendimiento multimodal.

A lo largo del proceso de entrenamiento, los expertos en IA de Microsoft emplearon una combinación de técnicas de ajuste fino supervisado, optimización proximal de políticas y optimización directa de preferencias. Estos métodos avanzados garantizaron el cumplimiento preciso de las instrucciones y unas medidas de seguridad sólidas, lo que dio como resultado modelos que no sólo ofrecen un rendimiento excepcional, sino que también se adhieren a los más altos estándares de fiabilidad y confianza.

Colaboración de código abierto: Potenciación de la comunidad de IA

En un movimiento que ha cosechado el elogio generalizado de la comunidad de IA, Microsoft ha publicado los tres modelos Phi 3.5 bajo la permisiva licencia MIT de código abierto. Esta decisión refleja el compromiso de la compañía con el fomento de la innovación y la colaboración en el ecosistema de la IA, permitiendo a desarrolladores e investigadores de todo el mundo acceder libremente a estos modelos de vanguardia, modificarlos y comercializarlos.

Al adoptar un enfoque de código abierto, Microsoft no sólo democratiza el acceso a la tecnología de IA más avanzada, sino que también fomenta un esfuerzo de colaboración para seguir avanzando en este campo. Los desarrolladores e investigadores pueden ahora construir sobre los cimientos establecidos por la serie Phi 3.5, aportando sus propias ideas e innovaciones para ampliar los límites de lo que se puede conseguir con estos modelos.

Fomento de la innovación y la accesibilidad

La naturaleza de código abierto de los modelos Phi 3.5 tiene el potencial de catalizar la innovación en una amplia gama de industrias y aplicaciones. Desde la agricultura y la fabricación hasta la sanidad y las finanzas, la accesibilidad de estos modelos permite a organizaciones de todos los tamaños integrar capacidades de IA de vanguardia en sus productos y servicios, impulsando la eficiencia, la productividad y la innovación.

Además, el enfoque de código abierto se alinea con el compromiso de Microsoft de hacer que la tecnología de IA sea más accesible e inclusiva. Al eliminar las barreras de entrada y fomentar un ecosistema de colaboración, la serie Phi 3.5 tiene el potencial de democratizar el acceso a las capacidades avanzadas de IA, lo que permite a los desarrolladores e investigadores de diversos orígenes y regiones contribuir al avance del campo.

IA responsable: dar prioridad a la ética y la seguridad

Aunque la serie Phi 3.5 representa un avance tecnológico significativo, Microsoft reconoce la importancia del desarrollo y despliegue responsable de la IA. Por ello, la compañía ha implementado rigurosas medidas de seguridad y consideraciones éticas para garantizar que estos modelos se utilicen de forma justa, fiable y alineada con los valores de la sociedad.

Evaluación exhaustiva de la seguridad

Antes de su lanzamiento, los modelos Phi 3.5 se sometieron a exhaustivas evaluaciones de seguridad, que incluyeron simulaciones de conversaciones entre adversarios y conjuntos de datos multilingües de referencia para la evaluación de la seguridad. El objetivo de estas evaluaciones era valorar la propensión de los modelos a producir resultados no deseados en múltiples idiomas y categorías de riesgo, garantizando que se aplicaban las salvaguardias adecuadas.

Una de las principales conclusiones de estas evaluaciones fue el impacto positivo de las técnicas de postformación en seguridad, como se detalla en el documento Phi-3 Safety Post-Training. Los modelos demostraron mejores índices de rechazo a la generación de resultados indeseables y una mayor solidez frente a las técnicas de fuga, incluso en idiomas distintos del inglés.

Hacer frente a las posibles limitaciones

A pesar de estas medidas de seguridad, Microsoft reconoce que los modelos Phi 3.5, como cualquier modelo lingüístico, pueden presentar ciertas limitaciones y sesgos. Entre ellos se incluye la posibilidad de que se produzcan imprecisiones factuales, especialmente en tareas que requieran un amplio conocimiento de los hechos, así como la posibilidad de que se perpetúen estereotipos o se represente a determinados grupos de forma desproporcionada.

Para mitigar estos riesgos, Microsoft anima a los desarrolladores a seguir las mejores prácticas de IA responsable, incluyendo el mapeo, la medición y la mitigación de los riesgos asociados con su caso de uso específico y el contexto cultural y lingüístico. La empresa también recomienda ajustar los modelos para casos de uso específicos y utilizarlos como parte de sistemas de IA más amplios con salvaguardias específicas para cada idioma.

Consideraciones éticas

Más allá de las salvaguardias técnicas, Microsoft subraya la importancia de las consideraciones éticas en el desarrollo y despliegue de modelos de IA. Esto incluye la evaluación de la idoneidad de utilizar los modelos Phi 3.5 en escenarios de alto riesgo en los que los resultados injustos, poco fiables u ofensivos podrían provocar daños, como el asesoramiento en ámbitos sensibles o especializados como el asesoramiento jurídico o sanitario.

Además, Microsoft anima a los desarrolladores a seguir las mejores prácticas de transparencia, informando a los usuarios finales de que están interactuando con un sistema de IA e implementando mecanismos de retroalimentación para fundamentar las respuestas en información contextual específica para cada caso de uso.

Conclusión: Un cambio de paradigma en las capacidades de la IA

El lanzamiento de la serie Phi 3.5 por parte de Microsoft representa un cambio de paradigma en las capacidades de los modelos de IA. Al combinar rendimiento, eficiencia y versatilidad de vanguardia, estos modelos están preparados para revolucionar la forma en que abordamos las soluciones basadas en IA en una amplia gama de sectores y aplicaciones.

Desde la compacta pero formidable mini-instrucción Phi-3.5, capaz de ofrecer una capacidad de razonamiento excepcional en entornos con recursos limitados, hasta la innovadora mini-instrucción Phi-3.5-MoE, con su adaptación dinámica a las tareas y su eficiencia sin precedentes, pasando por la destreza multimodal de la mini-instrucción Phi-3.5-vision, Microsoft ha demostrado su compromiso de ampliar los límites de lo que se puede conseguir con la tecnología de IA.

Descripciones

  • Phi-3.5-mini-instructor: Un modelo de IA compacto con 3.800 millones de parámetros diseñado para el razonamiento y la generación de código de alta eficiencia, especialmente en entornos con recursos computacionales limitados.
  • Mezcla de Expertos (MoE): Arquitectura de IA en la que se combinan varios modelos especializados (expertos), cada uno de los cuales se encarga de tareas específicas. Sólo se activa el experto pertinente durante una tarea determinada, lo que optimiza el uso de recursos.
  • Modelo multimodal: Un modelo de IA capaz de procesar e integrar múltiples tipos de datos, como texto e imágenes, para generar ideas o realizar tareas. Phi-3.5-vision-instruct es un ejemplo que destaca en tareas que requieren la interpretación de datos tanto visuales como textuales.
  • Evaluación comparativa: El proceso de probar y comparar el rendimiento de un modelo con estándares o tareas establecidos. Los modelos Phi 3.5 se probaron en tareas como RepoQA para la comprensión de código y MMLU para la comprensión del lenguaje.
  • Red Teaming: Un método de evaluación de la seguridad en el que los equipos tratan de explotar los puntos débiles de los modelos de IA, con el objetivo de identificar y corregir las vulnerabilidades antes de su despliegue. Microsoft utilizó el red teaming en las evaluaciones de seguridad de los modelos Phi 3.5.
  • Licencia MIT de código abierto: Licencia permisiva que permite a los usuarios utilizar, modificar y distribuir libremente software o modelos. Microsoft lanzó la serie Phi 3.5 bajo esta licencia para fomentar la colaboración y la innovación de la comunidad.

Preguntas más frecuentes

  • ¿Qué es la actualización Microsoft Phi 3.5?
    La actualización Microsoft Phi 3.5 incluye una serie de modelos de IA -mini-instruct, MoE-instruct y vision-instruct- diseñados para sobresalir en diversas tareas, desde el razonamiento en entornos restringidos hasta el manejo de datos multimodales complejos.
  • ¿En qué se diferencia Phi-3.5-mini-instruct de otros modelos de IA?
    Phi-3.5-mini-instruct es un modelo compacto con sólo 3.800 millones de parámetros, pero ofrece un alto rendimiento en el razonamiento basado en la lógica y en tareas multilingües, superando incluso a modelos más grandes de la competencia.
  • ¿Qué es el modelo de Mezcla de Expertos (MoE) de Microsoft Phi 3.5?
    El Phi-3.5-MoE-instruct utiliza una arquitectura de “Mezcla de Expertos”, en la que diferentes modelos especializados se encargan de tareas específicas. Esta adaptación dinámica de tareas garantiza una alta eficiencia y precisión en diversos dominios.
  • ¿Qué capacidades ofrece Phi-3.5-vision-instruct?
    Phi-3.5-vision-instruct es un modelo de IA multimodal que integra datos de texto e imagen, destacando en tareas como el reconocimiento óptico de caracteres y el resumen de vídeo, ofreciendo un sólido rendimiento en diversas aplicaciones.
  • ¿Por qué publicó Microsoft los modelos Phi 3.5 como código abierto?
    Microsoft ha publicado los modelos Phi 3.5 bajo una licencia MIT de código abierto para fomentar la colaboración y la innovación a nivel mundial, permitiendo a desarrolladores e investigadores desarrollar y mejorar estos modelos de IA.

source

Derechos Reservados FGJ MULTIMEDIOS 2024