Phi-3, model de llenguatge petit, SLM
Petits però poderosos: els models de llenguatge petits de Phi-3 amb gran potencial revelen com Microsoft ha estat innovant en el desenvolupament de models de llenguatge petits (SLM) que són més accessibles i requereixen menys recursos per operar, mantenint capacitats comparables als grans models de llenguatge (LLM). Sebastien Bubeck, vicepresident de recerca d’IA generativa de Microsoft, lidera aquest projecte, buscant com simplificar i fer més accessible la IA per a tothom.
La inspiració per aquests models va provenir d’una experiència personal de Ronen Eldan, de Microsoft, qui reflexionant sobre com els nens aprenen paraules, va impulsar un enfocament d’entrenament menys convencional utilitzant llibres per a nens. Aquesta metodologia va resultar en els models Phi-3, que han demostrat ser més eficients i econòmics que altres de mida similar en proves de llenguatge, codificació i matemàtiques.
Aquests models, com el Phi-3-mini amb 3.800 milions de paràmetres, estan dissenyats per funcionar eficaçment en dispositius locals, reduint la latència i maximitzant la privacitat. Microsoft ha llançat aquest model i planeja expandir aquesta família amb versions més grans i petites, com el Phi-3-small i el Phi-3-medium, disponibles properament en el catàleg de models de Microsoft Azure i altres plataformes.
Els SLM s’adapten particularment bé a tasques menys complexes i són ideals per a organitzacions amb recursos limitats o que necessiten mantenir les dades localment per complir amb regulacions. A més, aquests models són beneficiosos per a dispositius que operen desconnectats de la xarxa, com en àrees rurals o en dispositius mòbils, proporcionant solucions immediates sense necessitat de connectar-se a la xarxa.
Els models de llenguatge petits són particularment valuosos per a indústries regulades o situacions on la privacitat i la reducció de la latència són crucials, mentre que els models de llenguatge grans segueixen sent superiors per a tasques que requereixen una anàlisi complexa o un raonament avançat. L’elecció entre un SLM o un LLM depèn de les necessitats específiques de la tasca i els recursos disponibles de l’organització.
Microsoft, amb aquesta innovació, no busca substituir els LLM, sinó proporcionar una gamma de models que permetin als clients escollir el més adequat segons el seu cas específic. Aquesta estratègia destaca la importància de tenir un enfocament diversificat en el desenvolupament de solucions d’IA, aprofitant tant models petits com grans segons les necessitats de l’usuari.
- Phi-3 Microsoft blog
- Phi-3 Technical Report (pdf)
- Phi-3 on Azure AI Playground
- Phi-3 on Azure AI Studio
- Phi-3 ONNX: 4K and 128K