Microsoft presenta Phi-3.5

Microsoft ha revelado tres modelos innovadores en su serie Phi-3.5. Estos modelos representan avances significativos en inteligencia artificial, especialmente en los campos del procesamiento del lenguaje y la comprensión visual. A continuación, se exploran las especificaciones técnicas y métricas de rendimiento de estos modelos revolucionarios.

Phi-3.5-mini-instruct

Phi-3.5-mini-instruct es un modelo de lenguaje de código abierto diseñado para aplicaciones con recursos de memoria y computación limitados, ideal para escenarios que requieren baja latencia y razonamiento robusto, especialmente en codificación, matemáticas y lógica. Este modelo es una versión más ligera de la familia Phi-3, capaz de manejar contextos largos de hasta 128,000 tokens. Está entrenado con datos de alta calidad para mejorar el razonamiento y el soporte multilingüe, incluyendo también consideraciones sobre el uso responsable para evitar contenido ofensivo o inexacto.

Phi-3.5-MoE-instruct: Arquitectura Mixture of Experts

El modelo Phi-3.5-MoE-instruct utiliza una arquitectura Mixture of Experts (MoE), diseñada para un rendimiento óptimo en entornos con recursos limitados, manteniendo al mismo tiempo una alta capacidad de razonamiento. Este modelo cuenta con una serie de características técnicas destacadas:

Parámetros totales: 16 x 3.8 mil millones
Parámetros activos: 6.6 mil millones (2 expertos)
Tokenizador: vocabulario de 32K
Longitud de contexto: 128K tokens
Datos de entrenamiento: 4.9 billones de tokens (incluyendo un 10% de datos multilingües)
Infraestructura de entrenamiento: 512 GPUs H100–80G
Duración del entrenamiento: 23 días

La arquitectura MoE permite al modelo aprovechar un espacio de parámetros grande, activando solo una parte de ellos durante la inferencia. Este diseño permite una computación eficiente sin comprometer el rendimiento.

Métricas de rendimiento de los modelos Phi-3.5

El modelo Phi-3.5-MoE-instruct demuestra un rendimiento impresionante en diversos puntos de referencia:

El modelo supera a sus contrapartes más grandes en tareas de razonamiento y compite eficazmente en la comprensión del lenguaje y la resolución de problemas matemáticos.

El Phi-3.5-MoE-instruct admite una amplia gama de idiomas, entre ellos:

  • Europeos: Inglés, francés, alemán, español, italiano, neerlandés, portugués, danés, sueco, noruego, finlandés, polaco, checo, húngaro.
  • Asiáticos: Chino, japonés, coreano, tailandés.
  • Medio Oriente: Árabe, hebreo, turco.
  • Eslavos: Ruso, ucraniano.

Phi-3.5-vision-instruct: Phi se vuelve multimodal

El modelo Phi-3.5-vision-instruct amplía las capacidades de la serie Phi-3.5 en la inteligencia visual, combinando un robusto entendimiento del lenguaje con un procesamiento visual avanzado. Las especificaciones técnicas clave incluyen:

Parámetros totales: 4.2 mil millones
Componentes: Codificador de imagen, conector, proyector, modelo de lenguaje Phi-3.5 Mini
Datos de entrenamiento: 500 mil millones de tokens (visión y texto)
Infraestructura de entrenamiento: 256 GPUs A100–80G
Duración del entrenamiento: 6 días

El modelo integra componentes de procesamiento visual y de lenguaje, permitiendo un manejo eficiente tanto de entradas de texto como de imagen. Esta arquitectura permite realizar tareas complejas de razonamiento visual y comprensión multimodal.

Rendimiento del Phi-3.5-vision-instruct en benchmarks de visión-lenguaje

El Phi-3.5-vision-instruct muestra un rendimiento competitivo en varios puntos de referencia de visión-lenguaje, superando a menudo a modelos más grandes en tareas específicas. Algunos de los benchmarks donde se ha destacado incluyen:

  • BLINK
  • Video-MME

Estas puntuaciones demuestran la eficacia del modelo en tareas de inteligencia visual, a menudo superando a modelos de mayor tamaño en benchmarks específicos.

Optimización de hardware de los modelos Phi-3.5

Ambos modelos, Phi-3.5-MoE-instruct y Phi-3.5-vision-instruct, comparten varias características técnicas clave que optimizan su rendimiento en hardware específico:

  • Optimizados para GPUs NVIDIA A100, A6000 y H100.
  • Utilizan flash attention para mejorar el rendimiento, requiriendo hardware GPU compatible.

Procesamiento de entradas en los modelos Phi-3.5

Los modelos Phi-3.5 soportan una amplia variedad de estructuras de entrada, lo que les permite procesar prompts en formato de chat con mensajes específicos de sistema, usuario y asistente. El Phi-3.5-vision-instruct admite además entradas de una o varias imágenes, con requisitos específicos de formato.

Metodología de entrenamiento de los modelos Phi-3.5

Los modelos Phi-3.5 fueron entrenados empleando técnicas avanzadas:

  • Afinado supervisado, lo que permitió ajustar el rendimiento del modelo para tareas específicas.
  • Aprendizaje por refuerzo con retroalimentación humana, asegurando que el modelo no solo fuera técnicamente competente, sino también alineado con expectativas humanas.
  • Incorporación de fuentes de datos diversas, incluyendo datos de alta calidad que combinan imagen y texto, así como datos sintéticos de tipo “libro de texto” para el modelo de visión.