Microsoft presenta Phi-3.5

Microsoft ha revelat tres models innovadors en la seva sèrie Phi-3.5. Aquests models representen avenços significatius en intel·ligència artificial, especialment en els camps del processament del llenguatge i la comprensió visual. A continuació, s’exploren les especificacions tècniques i mètriques de rendiment d’aquests models revolucionaris.

Phi-3.5-mini-instruct

Phi-3.5-mini-instruct és un model de llenguatge de codi obert dissenyat per a aplicacions amb recursos de memòria i computació limitats, ideal per a escenaris que requereixen baixa latència i raonament robust, especialment en codificació, matemàtiques i lògica. Aquest model és una versió més lleugera de la família Phi-3, capaç de gestionar contextos llargs de fins a 128,000 tokens. Està entrenat amb dades d’alta qualitat per millorar el raonament i el suport multilingüe, incloent-hi també consideracions sobre l’ús responsable per evitar contingut ofensiu o inexacte.

Phi-3.5-MoE-instruct: Arquitectura Mixture of Experts

El model Phi-3.5-MoE-instruct utilitza una arquitectura Mixture of Experts (MoE), dissenyada per a un rendiment òptim en entorns amb recursos limitats, mantenint al mateix temps una alta capacitat de raonament. Aquest model compta amb una sèrie de característiques tècniques destacades:

Paràmetres totals: 16 x 3.8 mil milions
Paràmetres actius: 6.6 mil milions (2 experts)
Tokenitzador: vocabulari de 32K
Longitud de context: 128K tokens
Dades d’entrenament: 4.9 bilions de tokens (incloent-hi un 10% de dades multilingües)
Infraestructura d’entrenament: 512 GPUs H100–80G
Durada de l’entrenament: 23 dies

L’arquitectura MoE permet al model aprofitar un espai de paràmetres gran, activant només una part d’ells durant la inferència. Aquest disseny permet una computació eficient sense comprometre el rendiment.

Mètriques de rendiment dels models Phi-3.5

El model Phi-3.5-MoE-instruct demostra un rendiment impressionant en diversos punts de referència:

El model supera els seus homòlegs més grans en tasques de raonament i competeix eficaçment en la comprensió del llenguatge i la resolució de problemes matemàtics.

El Phi-3.5-MoE-instruct admet una àmplia gamma d’idiomes, entre ells:

  • Europeus: Anglès, francès, alemany, espanyol, italià, neerlandès, portuguès, danès, suec, noruec, finlandès, polonès, txec, hongarès.
  • Asiàtics: Xinès, japonès, coreà, tailandès.
  • Mitjà Orient: Àrab, hebreu, turc.
  • Eslavs: Rus, ucraïnès.

Phi-3.5-vision-instruct: Phi es torna multimodal

El model Phi-3.5-vision-instruct amplia les capacitats de la sèrie Phi-3.5 en la intel·ligència visual, combinant un robust enteniment del llenguatge amb un processament visual avançat. Les especificacions tècniques clau inclouen:

Paràmetres totals: 4.2 mil milions
Components: Codificador d’imatge, connector, projector, model de llenguatge Phi-3.5 Mini
Dades d’entrenament: 500 mil milions de tokens (visió i text)
Infraestructura d’entrenament: 256 GPUs A100–80G
Durada de l’entrenament: 6 dies

El model integra components de processament visual i de llenguatge, permetent una gestió eficient tant d’entrades de text com d’imatge. Aquesta arquitectura permet realitzar tasques complexes de raonament visual i comprensió multimodal.

Rendiment del Phi-3.5-vision-instruct en benchmarks de visió-llenguatge

El Phi-3.5-vision-instruct mostra un rendiment competitiu en diversos punts de referència de visió-llenguatge, superant sovint models més grans en tasques específiques. Alguns dels benchmarks on s’ha destacat inclouen:

  • BLINK
  • Video-MME

Aquestes puntuacions demostren la eficàcia del model en tasques d’intel·ligència visual, sovint superant models de major mida en benchmarks específics.

Optimització de hardware dels models Phi-3.5

Ambdós models, Phi-3.5-MoE-instruct i Phi-3.5-vision-instruct, comparteixen diverses característiques tècniques clau que optimitzen el seu rendiment en hardware específic:

  • Optimitzats per a GPUs NVIDIA A100, A6000 i H100.
  • Utilitzen flash attention per millorar el rendiment, requerint hardware GPU compatible.

Processament d’entrades en els models Phi-3.5

Els models Phi-3.5 suporten una àmplia varietat d’estructures d’entrada, el que els permet processar prompts en format de xat amb missatges específics de sistema, usuari i assistent. El Phi-3.5-vision-instruct admet a més entrades d’una o diverses imatges, amb requisits específics de format.

Metodologia d’entrenament dels models Phi-3.5

Els models Phi-3.5 van ser entrenats utilitzant tècniques avançades:

  • Afinament supervisat, cosa que va permetre ajustar el rendiment del model per a tasques específiques.
  • Aprenentatge per reforç amb retroalimentació humana, assegurant que el model no només fos tècnicament competent, sinó també alineat amb les expectatives humanes.
  • Incorporació de fonts de dades diverses, incloent-hi dades d’alta qualitat que combinen imatge i text, així com dades sintètiques de tipus “llibre de text” per al model de visió.